情報処理学会第88回全国大会

近年，人間の多様な操作データであるプレイデータを活用してロボットに行動方針を学習させる模倣学習が注目されている．なかでもPlay-LMPはプレイデータから潜在計画を学習することにより高い汎化性能を示す手法として知られている．しかし，プレイデータには教示者の意図しない動作が含まれるため，生成される行動は必ずしも好みと一致しないという課題がある．本研究では，Play-LMPを拡張し，プレイデータに付与した嗜好ラベルを学習に取り込むことで，教示者の好みに応じた潜在計画および動作を生成可能とする手法を提案する．評価実験では，嗜好ラベル推定の効果と嗜好を反映した行動生成が可能であるかを検証する．