今後の展望

<<< Topに戻る

今回の研究の妥協点

一つのマスにエージェントが複数存在してしまう

これはかなり致命的な問題で、自分としても早く改善しないといけないと思っています。

今回はエージェントが行動できる方向をマスク(制限)するために、観察から得られた情報を使っています。しかし、ML-Agentsの都合上、プログラムの実行順序が「エージェント1の観察, エージェント2の観察, ...」→「エージェント1の行動, エージェント2の行動, ...」となってしまい、エージェント1が行動した後のフィールドの状況がエージェント2の観察に反映されず、既にエージェントが存在しているマスに移動してしまうのです。

エージェントの視界がフィールドを上から見たものになってしまっている

これも現実では起こりえないものなので、改善が必要です。当初はレイキャスティングを用いてできないか試行錯誤していたのですが、自分がグリッド探索の実装に慣れていないこともあってバグが多発し実装が間に合わなかったため、ひとまず簡易的な方法にしました。TSSまでには実装しなおしたいと思っています。

今後の展望

実際の学校の環境でも試してみる

SSIのときと同様、実際の戸山高校におけるマルチエージェント避難学習を行いたいと考えています。学校のように狭い通路があるような環境では、先ほどの妥協点の影響も大きくなってくると思います。

まずは1Fだけのシミュレーションから始めて、余裕があれば全階層からの避難学習も視野に入れています。

学習結果の分析の改善

今回は学習後のエージェントの動きと学習中の報酬やエピソード長の推移のみで考察を行いましたが、これだけでは不十分だと考えています。そこで、避難する際にエージェントがどこを通って出口へと向かったのかをヒートマップにして可視化してみようと思います。サッカーゲームでいうところの、試合後の各選手のプレーエリアが表示されるようなものでしょうか。これにより、避難の動線が明らかになるはずです。

また、避難開始からの時間経過でエージェントの動きを見てみるのもおもしろそうだと思っています。