強化学習:多腕バンディット問題 定常・非定常

強化学習の基礎、多腕バンディット問題

面白そうなのでやってみました。

ちなみに、本日のアイキャッチは画像生成AIであるStableDiffusionで「multi arms bandit problem by stable diffusion」 というワードから生成した一枚です。

モジュールインポート クラス作成

バンディットとエージェントで学習 定常問題

結果

モデルを200回繰り返した平均結果

バンディットとエージェントで学習 非定常問題

 

結果

モデルを200回繰り返した平均結果