次回は、actorNNへの引数修正、それに伴うagentDDPG引数修正、そしてリプレイバッファへの保存内容を修正しました。
今回は64データ集まった後に学習learn()メソドが走るとエラーが出るので修正していきます。
Contents
chatGPTより
このエラーメッセージは、F.linear
関数を使用して乗算されている2つのテンソルのデータ型が一致しないことを示しています。この場合、input
テンソルとweight
テンソルのデータ型が異なるようです。
この問題を解決するには、次の手順を試すことができます。
input
テンソルとweight
テンソルのデータ型を確認します。それらのdtype
属性を出力して、同じかどうかを確認できます。- データ型が異なる場合は、
to()
メソッドを使用してinput
テンソルをweight
テンソルと同じデータ型に変換します。たとえば、weight
テンソルがfloat32
テンソルの場合、input.to(torch.float32)
を呼び出してinput
テンソルをfloat32
テンソルに変換できます。 - 代わりに、
input
テンソルと同じデータ型にweight
テンソルを変換することもできます。たとえば、input
テンソルがfloat64
テンソルの場合、weight.to(torch.float64)
を呼び出してweight
テンソルをfloat64
テンソルに変換できます。 - テンソル上で行われる他の操作も同じデータ型を維持するようにしてください。
テンソルのデータ型が一貫していることを確認することで、遭遇したRuntimeError
を解決できるはずです。
とのこと。なるほど、入力データをpytorchの型に合わせる必要があるようです。
現状確認
データを保存するときにstore_transitionメソドで
self.state_memory[index] = obs.detach().numpy().flatten()
self.action_memory[index] = action.flatten()
self.reward_memory[index] = reward.flatten()
self.next_state_memory[index] = next_state.flatten()
self.terminal_memory[index] = 1 – int(done)
としているので、type()で型を見てみます。
print(‘type of state_memory :’, type(self.state_memory[0][0]))
print(‘type of action_memory :’, type(self.action_memory[0][0]))
print(‘type of reward_memory :’, type(self.reward_memory[0]))
print(‘type of next_state_memory :’, type(self.next_state_memory[0][0]))
print(‘type of memory.state_memory :’, type(self.terminal_memory[0]))
結果、値は 全てnumpy.float64になっています。
type of state_memory : <class ‘numpy.float64’>
type of action_memory : <class ‘numpy.float64’>
type of reward_memory : <class ‘numpy.float64’>
type of next_state_memory : <class ‘numpy.float64’>
type of memory.state_memory : <class ‘numpy.float64’>
type of action_memory : <class ‘numpy.float64’>
type of reward_memory : <class ‘numpy.float64’>
type of next_state_memory : <class ‘numpy.float64’>
type of memory.state_memory : <class ‘numpy.float64’>
取り出す際もsample_buffer(self, batch_size)メソドで
observations = self.state_memory[choosed_index]
として戻り値を得ているので変わりません。
戻り値はpytorchのテンソルに変換しています。troch.float64になっている。
observations = T.tensor(observations, dtype=float)
actions = T.tensor(actions, dtype=float)
rewards = T.tensor(rewards, dtype=float)
next_states = T.tensor(next_states, dtype=float)
terminals = T.tensor(terminals, dtype=float)
それを
target_actions = self.target_actor.forward(next_states)
に入れたときに起こっているのか?
class ActorNN(nn.Module):
__init__: self.fc1 = nn.Linear(n_obs_space, layer1_size)
forward : x = self.fc1(obs) ここでエラーが発生している
obsはバッチサイズ64x観察空間17、を入力ノード17x次層ノード64で待ち受けている。数としては問題ない。
型が合わないということなので、重みパラメータの型を調べてみる
agent.actor.fc1.weight.dtype → torch.float32
agent.target_actor.fc1.weight.dtype → torch.float32
なるほど、torch.float32で入力しなければならないようなので、変更します。
修正前:observations = T.tensor(observations, dtype=float)
修正後:observations = T.tensor(observations, dtype=T.float32)
これで回るようになりました。
ここまでのスクリプト
target_actorへnext_states バッチサイズ64データを入力し、target_actions 64データを得ることができました。
以降、actorが1ステップ行動するごとに、target_actorへnext_states 64データを入力してtarget_actions 64データを繰り返し出力する状態になりました。
次回は、このtarget_actionsをnext_statesと共にtarget_criticへ入力するところからやっていきます。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 |
import gymnasium as gym import time import torch as T import torch.nn as nn import torch.nn.functional as F import torch.optim as opitm import numpy as np # 10. ReplayBufferクラスを新規作成する class ReplayBuffer: def __init__(self, max_memory_size, n_obs_space, n_action_space): self.max_memory_size = max_memory_size self.n_obs_space = n_obs_space self.n_action_space = n_action_space self.memory_count = 0 self.state_memory = np.zeros((self.max_memory_size, self.n_obs_space)) self.action_memory = np.zeros((self.max_memory_size, self.n_action_space)) self.reward_memory = np.zeros(self.max_memory_size) self.next_state_memory = np.zeros((self.max_memory_size, self.n_obs_space)) self.terminal_memory = np.zeros(self.max_memory_size) #self.terminal_memory = np.zeros(self.max_memory_size, dtype=np.bool) # 11.トランジション保存のためstore_transitionメソドを作成する def store_transition(self, obs, action, reward, next_state, done): print('store_transition is working.') index = self.memory_count % self.max_memory_size # 最大メモリー数に到達したら、古いデータから上書きされていくギミック print('obs.detach().numpy().flatten():',obs.detach().numpy().flatten()) self.state_memory[index] = obs.detach().numpy().flatten() self.action_memory[index] = action.flatten() self.reward_memory[index] = reward.flatten() self.next_state_memory[index] = next_state.flatten() self.terminal_memory[index] = 1 - int(done) # ゴールならterminal = 0 となるように print('state_memory :', self.state_memory) print('action_memory :', self.action_memory) print('reward_memory :', self.reward_memory) print('next_state_memory :', self.next_state_memory) print('memory.state_memory :', self.terminal_memory) print('type of state_memory :', type(self.state_memory[0][0])) print('type of action_memory :', type(self.action_memory[0][0])) print('type of reward_memory :', type(self.reward_memory[0])) print('type of next_state_memory :', type(self.next_state_memory[0][0])) print('type of memory.state_memory :', type(self.terminal_memory[0])) self.memory_count += 1 print('memory_count :', agent.memory.memory_count) # 16 バッファメモリーからランダムに抽出する def sample_buffer(self, batch_size): # indexが最大メモリに到達していない場合を想定する。 max_index = min(self.max_memory_size, self.memory_count) choosed_index = np.random.choice(max_index, batch_size) observations = self.state_memory[choosed_index] actions = self.action_memory[choosed_index] rewards = self.reward_memory[choosed_index] next_states = self.next_state_memory[choosed_index] terminals = self.terminal_memory[choosed_index] return observations, actions, rewards, next_states, terminals # 6.ActorNNクラスを新規作成する class ActorNN(nn.Module): def __init__(self, alpha=0.000025, n_obs_space=17, n_action_space=6, layer1_size=64, layer2_size=64, batch_size=64): print('ActorNN.__init__ is working.') super(ActorNN, self).__init__() self.fc1 = nn.Linear(n_obs_space, layer1_size) self.fc2 = nn.Linear(layer1_size, layer2_size) self.fc3 = nn.Linear(layer2_size, n_action_space) def forward(self, obs): print('AgetDDPG.ActorNN.forward is working') print('====ここまではOK1====') x = self.fc1(obs) x = F.relu(x) x = self.fc2(x) x = F.relu(x) x = self.fc3(x) mu = F.tanh(x) print('action μ:', mu) print('====ここまではOK2====') # 必要であればあとでノイズを入れる:action = mu + noize action = mu return action # 22.CriticNNクラスを新規作成する class CriticNN(nn.Module): def __init__(self, input_dim, output_dim): print('CriticNN.__init__ is working.') super(CriticNN, self).__init__() # ActorNNの部分:ActorNnと同じ構造 self.fc1 = nn.Linear(input_dim, 64) self.fc2 = nn.Linear(64, output_dim) # CriticNNの部分 self.fc11 = nn.Linear(n_action) def forward(self, obs, action): # ActorNNの部分:ActorNnと同じ構造 x = self.fc1(obs) x = F.relu(x) mu = self.fc2(x) # 3.エージェントクラスを定義する class AgentDDPG: def __init__(self, alpha=0.000025, beta=0.00025, gamma=0.99, tau=0.001, n_obs_space=17 , n_action_space=6, n_state_action_value=1, layer1_size=64, layer2_size=64, batch_size=64): print('AgentDDPG.__init__ is working.') # 5.ActorNNクラスのインスタンスを生成する self.alpha = alpha self.beta = beta self.gamma = gamma self.tau = tau self.n_obs_space = n_obs_space self.n_action_space = n_action_space self.n_state_action_value = n_state_action_value self.layer1_size = layer1_size self.layer2_size = layer2_size # 13.バッチサイズを決めておく self.batch_size = batch_size self.actor = ActorNN(alpha=0.000025, n_obs_space=17, n_action_space=6, layer1_size=64, layer2_size=64, batch_size=64) # 9.memoryインスタンスを追加 self.MAX_MEMORY_SIZE = 1000 self.memory = ReplayBuffer(max_memory_size=self.MAX_MEMORY_SIZE, n_obs_space=self.n_obs_space, n_action_space=self.n_action_space) # 19.ターゲットアクターネットワークインスタンスtarget_actorを作成する # actorとtarget_actorのネットワークは同じActorNNで良い self.target_actor = ActorNN(alpha=0.000025, n_obs_space=17, n_action_space=6, layer1_size=64, layer2_size=64, batch_size=64) # 21.ターゲットクリティックネットワークインスタンスtareget_criticを作成する #self.target_critic = CriticNN(input_dim=self.input_dim, output_dim=self.output_dim) #self.critic = CriticNN(input_dim=self.input_dim, output_dim=self.output_dim) def choose_action(self, obs): print('AgentDDPG.choose_action is working.') # 4.方策(アクター)はニューラルネットワークで表現する。 # ActorNNクラスを新規作成し、インスタンスactorとして使用する。 action = self.actor.forward(obs) action = action.detach().numpy() print('====ここまではOK3====') return action # 8.remenberメソドを追加 def remember(self, obs, action, reward, next_state, done): self.memory.store_transition(obs, action, reward, next_state, done) # 13.learnメソドを追加 def learn(self): # 14.バッチサイズ分のトランジションが集まるまでは何も実行しない。 if self.memory.memory_count < self.batch_size: return # 15.メモリバッファからデータを抜き出す sample_buffer() # バッチ化されているので変数名を複数形にする observations, actions, rewards, next_states, terminals = self.memory.sample_buffer(self.batch_size) print('s:', observations) print(observations.shape) print('a :', actions) print('r :', rewards) print('s_ :', next_states) print('terminal :', terminals) # 17.抜き出したデータをpytorchで微分可能なようにtorch.tensor化する observations = T.tensor(observations, dtype=T.float32) actions = T.tensor(actions, dtype=T.float32) rewards = T.tensor(rewards, dtype=T.float32) next_states = T.tensor(next_states, dtype=T.float32) terminals = T.tensor(terminals, dtype=T.float32) # 18.ターゲットアクターネットワークインスタンスtarget_actorに # 次の状態next_satesを入れて、ターゲットアクションtarget_actionsとして取り出す。 # このターゲットネットワークはターゲットでないネットワークとNNパラメータを共有させる。 print('next_states :', next_states) target_actions = self.target_actor.forward(next_states) """ # 20.ターゲットクリティックネットワークインスタンスtareget_criticに # 次の状態next_statesと上記より算出したターゲットアクションの2つを入力して # 価値関数の推定値ターゲットバリューを出力する。 # TDターゲット:r + γ*V(w)[s_t+1] の部分のこと。 # ターゲットクリティックバリューはターゲットアクターネットワークを使う target_critic_values = self.target_critic.forward(next_states, target_actions) # 22.ベースラインとして機能するクリティックネットワーク(価値関数V(w)[s_t]ネットワーク)に # 現在の状態observationsと行動actionsを入力して # クリティックバリューを算出する critic_values = self.critic.forward(observations, actions) # 333.TDターゲットを算出する:r + γ*V(w)[s_t+1] GAMMA = 0.01 self.gamma = GAMMA td_targets = [] for i in range(self.batch_size): td_target = rewards[i] + GAMMA * target_critic_values[i] * terminals[i] td_targets.append(td_target) # TDターゲットの形をバッチに整える td_targets = T.tensor(td_targets) td_target = td_target.view(self.bathc_size, 1) """ # 2.エージェントクラスのインスタンスを生成する agent = AgentDDPG(alpha=0.000025, beta=0.00025, gamma=0.99, tau=0.001, n_obs_space=17 , n_action_space=6, n_state_action_value=1, layer1_size=64, layer2_size=64, batch_size=64) env = gym.make("HalfCheetah-v4", render_mode= 'human') EPISODES = 2 DELAY_TIME = 0.00 # sec total_rewards = [] for eposode in range(EPISODES): obs = env.reset() obs = T.tensor(obs[0], dtype=T.float) # tensor([ 0.0040, 0.0199, -0.0622, 0.0594, -0.0605, 0.0577, -0.0056, 0.0333, -0.0072, 0.0532, -0.0512, 0.0173, -0.0529, -0.1104, 0.0946, -0.0559, 0.0824]) print(type(obs)) # observation_space : Box(-inf, inf, (17,), float64) print('observation_space : ', env.observation_space) print('obs :', obs) reward: float = 0 total_reward: float = 0 done: bool = False for j in range(40): env.render() # ここをDDPGに置き換えていく action = agent.choose_action(obs) # 1.Agentクラスを定義していく #action : [ 0.06660474 -0.11753064 0.02527559 0.06465236 0.1050786 0.05048539] print('====ここまではOK4====') print('action_space : ', env.action_space) print('action : ', action) next_state, reward, done, _, info = env.step(action) print('next_state, reward, done, _, info :', next_state, reward, done, _, info) """ action : [ 0.06660474 -0.11753064 0.02527559 0.06465236 0.1050786 0.05048539] next_state, reward, done, _, info : [-0.00265179 0.0229547 0.00463243 -0.04729936 -0.00959038 0.04734605 0.03672746 0.02857842 0.09980254 -0.32065693 0.04221647 1.58668951 -2.31089174 1.30338924 -0.25465526 1.08250465 -0.14134398] 0.07553858359316026 False False {'x_position': -0.09233384215910741, 'x_velocity': 0.07920445513883267, 'reward_run': 0.07920445513883267, 'reward_ctrl': -0.0036658715456724168} """ print('====ここまではOK5====') #7. トラジェクトを保存する。経験再生(ReplayBuffer) agent.remember(obs, action, reward, next_state, int(done)) # 12. ニューラルネットワークを学習する agent.learn() print('next_state:', next_state) obs = next_state obs = T.tensor(obs, dtype=T.float) total_reward += reward time.sleep(DELAY_TIME) print('total_reward : ', total_reward) total_rewards.append(total_reward) print('total_rewards : ', total_rewards) env.close() # 空なんですけど・・・ print('script is done.') # https://gymnasium.farama.org/ |
The following two tabs change content below.
Keita N
最新記事 by Keita N (全て見る)
- 2024/1/13 ビットコインETFの取引開始:新たな時代の幕開け - 2024年1月13日
- 2024/1/5 日本ビジネスにおける変革の必要性とその方向性 - 2024年1月6日
- 2024/1/3 アメリカ債権ETFの見通しと最新動向 - 2024年1月3日