2Y-05
複数のImage-Textモデルを用いた拾得物管理向けマルチモーダル認識基盤の構築
○松島明寛,鄭 萬溶(沼津高専)
本研究は,拾得物管理において写真と「青い持ち手」など非定型な言語記述の対応付けに伴う人手依存と低精度の問題を解決することを目的とする。GLIPやGrounding DINOなどのマルチモーダル基盤モデルとLoRA,SAM2を用いて,微細特徴とテキストフレーズを高精度にグラウンディングする拾得物照合基盤の構築を目指す。現在はYOLOを用いた拾得物検出モデルを構築し,mAP50=0.823,適合率0.82を達成しており,クラス拡充とデータ拡張による精度向上と実運用環境でのロバスト性検証を進めている。