pytorch_policy_gradient_method

方策勾配法にチャレンジしました。

オライリージャパンの ゼロから作るDeep Learning 4 強化学習編を参考にしながら作成しました。

本書ではニューラルネットワークをdezeroというオリジナルのフレームワークで記述されておりましたが、もっと汎用的に使えるように独自にpytorchへ変更しました。悩みながら2日かけてなんとか動いてくれました。

必要なモジュールをインポート

 

GPUを利用する

 

方策クラスの定義

 

 

エージェントクラスの定義

 

メインスクリプト

 

結果グラフ

pytorch_mlp

多層パーセプトロンで近似してみます

モジュール

 

 

 

 

#読み込んだパラメータがちゃんと型にあっているかどうか
model.load_state_dict(param_load)

 

pytorch_linear_regression

線形回帰です。

下準備

モジュール

 

線形にノイズを乗せたサンプルデータを作成する。

 

適当な一次関数を乗せる

あってないので学習していく

 

学習結果

以上