学習結果

<<< Topに戻る

実際にはどう動くのか

今回の学習結果(MA-POCAトレーナーの様子)です。避難が完了したエージェントはフィールドから消えるようになっていますが、なぜかExitから飛び出してきて動かなくなるバグが頻発しています...ちゃんと処理はできているので大丈夫なのですが。

学習の記録

今回の学習の記録です。

報酬曲線

エージェントが得た報酬の、10000エピソードあたりの平均値の推移を示すグラフです(青がPPO、赤がMA-POCA)。横軸がエピソード数、縦軸が獲得報酬です。

PPOでは平均報酬が6.0弱で上下を繰り返しており、なかなか安定しません。それに対してMA-POCAでは、40万エピソード後から平均報酬が9.7~9.8でほぼ収束し、安定した学習ができたことが分かります。

報酬曲線(PPO)

報酬曲線(MA-POCA)

エピソード長曲線

10000エピソードあたりの、1エピソードの長さの平均値の推移を示すグラフです。横軸がエピソード数、縦軸が長さです。

今回は避難に時間がかかるほど罰が与えられるようになっているので、学習が進むごとにエピソード長は短くなっています。こちらでも、MA-POCAの方がより早く、短い時間で避難完了できていることが分かります。

エピソード長曲線