Aimbot-PPO/arguments-jp.md at 573b09a920280cf603a4590e4db432c6ab9f99d6 - Aimbot-PPO - Koha9's Gitea

Koha9/Aimbot-PPO

Koha9 573b09a920 Argument説明

2024-03-02 17:36:33 +09:00

4.0 KiB

Raw Blame History

--seed <int>：実験の乱数Seed。デフォルト値は9331。
--path <str>：環境パス。デフォルト値は"./Build/3.6/Aimbot-ParallelEnv"。
--workerID <int>：Unity Worker ID。デフォルト値は1。
--baseport <int>：Unity環境への接続用Port。デフォルト値は500。
--lr <float>：Optimizerのデフォルト学習率。デフォルト値は5e-5。
--cuda：有効にすると、デフォルトでcudaを使用します。trueまたはfalseを渡すことで有効/無効を切り替えられます。
--total-timesteps <int>：実験の合計タイムステップ数。デフォルト値は3150000。

モデルパラメータ

--train：モデルを訓練するかどうか。デフォルトで有効。
--freeze-viewnet：ビューネットワーク(raycast)をfreezeする。デフォルトはFalse。
--datasetSize <int>：訓練データセットのサイズ。データセットが十分なデータを集めたら訓練を開始する。デフォルト値は6000。
--minibatchSize <int>：minibatchのサイズ。デフォルト値は512。
--epochs <int>：epochs。デフォルト値は3。
--annealLR：ポリシーとバリューネットワークの学習率を退火するかどうか。デフォルトはTrue。
--wandb-track：wandbでトラッキングするかどうか。デフォルトはFalse。
--save-model：モデルを保存するかどうか。デフォルトはFalse。
--wandb-entity <str>：wandbプロジェクトのエンティティ。デフォルト値は"koha9"。
--load-dir <str>：モデルのロードディレクトリ。デフォルト値はNone。
--decision-period <int>：実際動作を実行する時のタイムステップの間隔。デフォルト値は1。
--result-broadcast-ratio <float>：ラウンドに勝った場合の報酬のbroadcast ratio、デフォルト値は1/30。
--target-lr <float>：学習率を下げる時の目標値。デフォルト値は1e-6。

損失関数パラメータ

--policy-coef <float>：policy損失の係数。デフォルト値は[0.8, 0.8, 0.8, 0.8]。
--entropy-coef <float>：entropy損失の係数。デフォルト値は[0.05, 0.05, 0.05, 0.05]。
--critic-coef <float>：critic損失の係数。デフォルト値は[1.0, 1.0, 1.0, 1.0]。
--loss-coef <float>：全体の損失の係数。デフォルト値は[1.0, 1.0, 1.0, 1.0]。

GAE損失パラメータ

--gae：GAEを使用してアドバンテージを計算するかどうか。デフォルトで有効。
--norm-adv：アドバンテージを正規化するかどうか。デフォルトはFalse。
--gamma <float>：割引因子gamma。デフォルト値は0.999。
--gaeLambda <float>：GAEのlambda値。デフォルト値は0.95。
--clip-coef <float>：代替クリッピング係数。デフォルト値は0.11。
--clip-vloss：論文で述べられている価値関数の損失のクリッピングを使用するかどうか。デフォルトで有効。
--max-grad-norm <float>：勾配のクリッピングの最大ノルム。デフォルト値は0.5。

環境パラメータ

--target-num <int>：Targetの種類数。デフォルト値は4。
--env-timelimit <int>：ラウンドごとの時間制限。デフォルト値は30。
--base-win-reward <int>：ラウンドに勝った場合の基本報酬。デフォルト値は999。
--base-lose-reward <int>：ラウンドに負けた場合の基本報酬。デフォルト値は-999。
--target-state-size <int>：Targetの状態サイズ。デフォルト値は6。
--time-state-size <int>：ゲームの残り時間の状態サイズ。デフォルト値は1。
--gun-state-size <int>：銃の状態サイズ。デフォルト値は1。
--my-state-size <int>：自分の状態サイズ。デフォルト値は4。
--total-target-size <int>：全Targetの状態サイズ。デフォルト値は12。