情報処理学会 第88回全国大会

7P-08
Vision-Languageモデルを用いた食材カット工程の自動理解と切り方の指示生成
○根路銘理子(お茶の水女子大),五十嵐悠紀(お茶の水女子大/東京大)
本稿では,料理動画に含まれる食材のカット工程を Vision-Language Model(VLM)と OCR により解析し,材料ごとに切り方を指示する調理支援手法を提案する.一般的なレシピ動画では材料名や切り方がテロップとして提示されることが多い.提案手法では動画フレームに OCR を適用して食材名や切り方を抽出し,それらと画像を VLM に入力することで,各食材の名称,切る際の具体的手順,安全上の注意を生成する.複数食材にも対応し,材料単位で指示を分割して出力できる点に特徴がある.予備的検証では,テロップに基づく材料推定と適切な指示生成が確認されたので報告する.