Aimbot-PPO/Aimbot-PPO-Python/Pytorch/arguments-jp.md
2024-03-02 17:36:33 +09:00

53 lines
4.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

- `--seed <int>`実験の乱数Seed。デフォルト値は`9331`。
- `--path <str>`:環境パス。デフォルト値は`"./Build/3.6/Aimbot-ParallelEnv"`。
- `--workerID <int>`Unity Worker ID。デフォルト値は`1`。
- `--baseport <int>`Unity環境への接続用Port。デフォルト値は`500`。
- `--lr <float>`Optimizerのデフォルト学習率。デフォルト値は`5e-5`。
- `--cuda`有効にすると、デフォルトでcudaを使用します。`true`または`false`を渡すことで有効/無効を切り替えられます。
- `--total-timesteps <int>`:実験の合計タイムステップ数。デフォルト値は`3150000`。
### モデルパラメータ
- `--train`:モデルを訓練するかどうか。デフォルトで有効。
- `--freeze-viewnet`:ビューネットワーク(raycast)をfreezeする。デフォルトは`False`。
- `--datasetSize <int>`:訓練データセットのサイズ。データセットが十分なデータを集めたら訓練を開始する。デフォルト値は`6000`。
- `--minibatchSize <int>`minibatchのサイズ。デフォルト値は`512`。
- `--epochs <int>`epochs。デフォルト値は`3`。
- `--annealLR`:ポリシーとバリューネットワークの学習率を退火するかどうか。デフォルトは`True`。
- `--wandb-track`wandbでトラッキングするかどうか。デフォルトは`False`。
- `--save-model`:モデルを保存するかどうか。デフォルトは`False`。
- `--wandb-entity <str>`wandbプロジェクトのエンティティ。デフォルト値は`"koha9"`。
- `--load-dir <str>`:モデルのロードディレクトリ。デフォルト値は`None`。
- `--decision-period <int>`:実際動作を実行する時のタイムステップの間隔。デフォルト値は`1`。
- `--result-broadcast-ratio <float>`ラウンドに勝った場合の報酬のbroadcast ratio、デフォルト値は`1/30`。
- `--target-lr <float>`:学習率を下げる時の目標値。デフォルト値は`1e-6`。
### 損失関数パラメータ
- `--policy-coef <float>`policy損失の係数。デフォルト値は`[0.8, 0.8, 0.8, 0.8]`。
- `--entropy-coef <float>`entropy損失の係数。デフォルト値は`[0.05, 0.05, 0.05, 0.05]`。
- `--critic-coef <float>`critic損失の係数。デフォルト値は`[1.0, 1.0, 1.0, 1.0]`。
- `--loss-coef <float>`:全体の損失の係数。デフォルト値は`[1.0, 1.0, 1.0, 1.0]`。
### GAE損失パラメータ
- `--gae`GAEを使用してアドバンテージを計算するかどうか。デフォルトで有効。
- `--norm-adv`:アドバンテージを正規化するかどうか。デフォルトは`False`。
- `--gamma <float>`割引因子gamma。デフォルト値は`0.999`。
- `--gaeLambda <float>`GAEのlambda値。デフォルト値は`0.95`。
- `--clip-coef <float>`:代替クリッピング係数。デフォルト値は`0.11`。
- `--clip-vloss`:論文で述べられている価値関数の損失のクリッピングを使用するかどうか。デフォルトで有効。
- `--max-grad-norm <float>`:勾配のクリッピングの最大ノルム。デフォルト値は`0.5`。
### 環境パラメータ
- `--target-num <int>`Targetの種類数。デフォルト値は`4`。
- `--env-timelimit <int>`:ラウンドごとの時間制限。デフォルト値は`30`。
- `--base-win-reward <int>`:ラウンドに勝った場合の基本報酬。デフォルト値は`999`。
- `--base-lose-reward <int>`:ラウンドに負けた場合の基本報酬。デフォルト値は`-999`。
- `--target-state-size <int>`Targetの状態サイズ。デフォルト値は`6`。
- `--time-state-size <int>`:ゲームの残り時間の状態サイズ。デフォルト値は`1`。
- `--gun-state-size <int>`:銃の状態サイズ。デフォルト値は`1`。
- `--my-state-size <int>`:自分の状態サイズ。デフォルト値は`4`。
- `--total-target-size <int>`全Targetの状態サイズ。デフォルト値は`12`。