4Y-06
マルチモーダル型大規模言語モデルを活用した自動車運転時の危険予測
○玉眞俊弥,本多泰理,佐野 崇,中村周吾(東洋大)
自動車運転時には周囲の状況を理解した上で道路利用者や標識を正しく認識し、どのような危険があるかを予測しなければならない。本研究では、この危険予測に大規模言語モデル(LLM)を用いる可能性を検討する。手法として、運転者から見た前方の様子の画像をLLMへの入力とし、予測される危険をテキストとして出力させた。特に標識やカーブミラーなどが危険予測に重要であると考え、GPT-4oでそれらの画像を用いたファインチューニングを行ったモデルに入力した場合と、YOLOを用いてそれらを認識させ、その情報をGPT-4oに入力した場合で、出力される危険予測の内容の精度を比較した。また、プロンプトの違い、あるいはLLMモデルの違いによる精度の違いを検証した。