情報処理学会 第86回全国大会 会期:2024年3月15日~17日

2W-06
ロボットの視点を含んだ3D Visual Grounding
○岩片彰吾,大島遼祐,綱島秀樹(早大),松澤郁哉(筑波大),YUE QIU,片岡裕雄(産総研),森島繁生(早大)
3D Visual Groundingは3Dシーンで自然言語により示される物体を特定するタスクであり,応用先の一つとして人間とロボットの自然言語のインタラクションがある.
実世界で人間は相手に指示をする際「あなたの右の机」など相手の位置情報を使用し指示を簡潔に行う事がある.しかし既存研究ではテキストと3D点群のみを使用した物体の特定が行なわれ,しばしば指示に使用するには不自然なテキストがデータに含まれる.(「ドアから窓を見て右にある机」など)
そこで本論文では,より実世界に即した"指示を受けるロボットの位置情報"を入力とした物体の特定タスクを行うため、新しいデータセットの作成とモデルの提案を行う.