pytorch_policy_gradient_method

Contents

方策勾配法にチャレンジしました。

オライリージャパンの ゼロから作るDeep Learning 4 強化学習編を参考にしながら作成しました。

本書ではニューラルネットワークをdezeroというオリジナルのフレームワークで記述されておりましたが、もっと汎用的に使えるように独自にpytorchへ変更しました。悩みながら2日かけてなんとか動いてくれました。

必要なモジュールをインポート

 

GPUを利用する

 

方策クラスの定義

 

 

エージェントクラスの定義

 

メインスクリプト

 

結果グラフ