情報処理学会 第86回全国大会 会期:2024年3月15日~17日

1U-01
TORCS上におけるSoft Actor-Criticの報酬設計によるスラロームの改善
○湯川航大,尾関智子(東海大)
深層強化学習を用いた自律走行が注目されている.自律走行のレースでは学習時に直線道路で不必要なスラロームが起き,学習の妨げになる.エージェントは探索のために様々なパターンのハンドル操作を試すが,実際の運転では考えにくいハンドル操作まで試している可能性が高い.本研究では,シミュレーション環境TORCSでエージェントが出力する現在の行動値と直前の行動値の差の絶対値を負の報酬として加えることで,ハンドル操作に制限をかける.この報酬を取り入れることでスラロームを抑え,ラップタイムと学習効率を改善する.