2ZE-04
不完全な物体検出結果に基づく対話を通じた目的地推定のための質問選択
街中の画像情報とユーザの指示発話を入力とし,ユーザが意図する画像中の目的地を推定するシステムの実現を目指す.
実環境中での画像認識結果は完全ではなく,ユーザの指示にも曖昧性があるため,一度の指示でユーザが意図する目的地を正確に推定するのは難しい.
本研究では,対話を通じてこの目的地を推定する手法を開発する.
街中の画像107枚を用意し,これらに対する仮の物体検出結果と,設定した目的地を指示するユーザ発話を,入力として用いる.
ユーザの指示する物体が全て検出されるわけではないため,目的地を絞り込む質問は適切に選択する必要がある.
目的地を絞り込むまでのターン数や,設定した目的地との誤差により性能を評価する.
実環境中での画像認識結果は完全ではなく,ユーザの指示にも曖昧性があるため,一度の指示でユーザが意図する目的地を正確に推定するのは難しい.
本研究では,対話を通じてこの目的地を推定する手法を開発する.
街中の画像107枚を用意し,これらに対する仮の物体検出結果と,設定した目的地を指示するユーザ発話を,入力として用いる.
ユーザの指示する物体が全て検出されるわけではないため,目的地を絞り込む質問は適切に選択する必要がある.
目的地を絞り込むまでのターン数や,設定した目的地との誤差により性能を評価する.