情報処理学会第88回全国大会

マルチモーダル大規模言語モデル(MLLM)の登場によって，視覚と言語の相互理解が革新的に進展している．しかし，既存のMLLMは視覚と言語による「物体間の関係性」の理解，特に空間的な配置の把握に関しては未だ不十分であることが指摘されている．そこで本研究では，MLLMを物体間の関係の理解を必要とするタスクに適用させたモデルであるASMv2を参考に，カメラ視点や被写体視点の座標系を明示的に考慮した「物体間の人座標系における相対位置関係」の理解が可能なMLLMを提案する．具体的には，深度推定や姿勢推定を用いてルールベースに指示調整データを作成することで，提案モデル実現を目指す．