試した強化学習はQ-LearningとSarsaです.
とりあえずお試しなので以下のようなざっくり離散化したconfiguration空間で経路を探索してみました.
とれる行動は上下左右の移動のみとして,障害物に-10,目的地に10の報酬を与えました.
Q-Learning,Sarsaそれぞれで計算した結果が以下となります.
両手法とも,方策はε-greedyとしε=0.2としました.学習率は0.2,割引率は0.9,学習の反復解数は500回としました.
結果,Q-Learningの方は毎回上手く経路が学習されたのですが,Sarsaの方は結構失敗することが多かったです.
このように一たびQ値が学習されれば,環境が変わらない限りはどこからスタートしてもゴールにたどり着く経路が得られるのが良いところだと思っていたのですが,学習時間が約12秒もかかってしまったのでやはりオンラインで搭載しようとすると,大した学習をしているわけではないのに,環境(障害物の位置など)が変わるたびにフリーズ感が出てしまうので実演には向かないかなぁと思いました.
また,Q値の学習のされ方が以下のような,求まった経路に引き込まれるようなものになったので,スタートポイントを変えるとゴールにはたどり着けますが,無駄に大回りをしてしまうような経路になってしまっています.
正直アルゴリズムを書いてみたかっただけなので,次は実演用のロジックを書こうと思います(online経路計画).
0 件のコメント:
コメントを投稿