4S-01
認知的満足化による環境変化への適応
○齋藤建志,高橋達二(電機大)
近年、機械学習の発展に伴って試行錯誤を通じて行動を学ぶという強化学習の研究が重要となってきた。しかし、現実世界では探索空間が膨大になり、現実的な時間で学習できないことが多い。そこで、高橋らは人間の意思決定法に着目し、ある基準を満たすように探索を行う満足化方策を提案した。しかし、満足化方策に用いられる価値関数RSは環境変化への対応に遅れる問題があった。そこで、本研究ではRSをもとに非定常な環境下でも有用なアルゴリズムを提案し、より実用的な満足化方策の実現を目指す。また、提案したアルゴリズムが非定常多腕バンディット問題において他のアルゴリズムよりも総合的に高い性能を持っていることを示す。

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会