研究方法

学習環境の詳細

こちらは、ポスターでも紹介した、今回の学習環境の詳細です。赤字はエージェントに与えられる報酬、青字は罰(負の報酬)を表しています。

学習環境の詳細

また、各階の構造は以下のようになっています。2階を例として示しました。

学習環境-2階

各階には4組の上り・下り階段があり、計8組の階段の中からランダムで3組が階段封鎖物で塞がれ、使えなくなります。

オブジェクト名	仕様
エージェント	1階のランダムな位置に配置される。3階にできるだけ早く上がり、5秒間とどまることが目標。また、レーザーを周囲に飛ばして周りの状況を観察する。さらに、自分の位置と水面の今の高さが常にわかる。
水面	1階の床下10mから毎フレームごとに0.01m上昇する。
階段	上りと下りが存在し、エージェントが触れると階を移動できる。
壁・障害物	エージェントが触れてはいけないもの。

強化学習サイクル1エピソード内のプログラムの簡単なフローチャートです。メインプログラムは左端の「EpisodeStart」から始まり、「EndEpisode」で終わります。

ただし、このプログラムのフローチャートは、3. 強化学習とは?で説明した「学習用のスクリプト」ではありません。エージェントがどのように環境観察を行うかや、報酬の与え方を記述したプログラムです(見えにくい場合は、拡大してください)。

フローチャート