実際に人工知能が学習データにしたがって動いている様子を動画で紹介します。(動画終盤、画面がかくついてしまいました...)
環境観察のため左右にちらちら向いてしまうのは仕方ないと思いましたが、場所によっては階段に移行するまでの時間がかなり長くなってしまうところもあります。そのあたりの改良が必要ですね。
今回の学習の記録です。
エージェントが得た報酬の、20000エピソードあたりの平均値の推移を示すグラフです。横軸がエピソード数、縦軸が獲得報酬です。400万回あたりから平均報酬が成功の目安である1.1~1.2付近で安定してきていることが分かります。学習には約5時間程度かかりました。
20000エピソードあたりの、1エピソードの長さの平均値の推移を示すグラフです。横軸がエピソード数、縦軸が長さです。今回はできるだけ長く生き残れていると報酬が多くなるように学習させたので、学習を重ねるにつれてエピソード長が長くなっています。推移の仕方は報酬曲線と似ていますね。