6D-01
TaskBenchを用いた大規模言語モデルのMissing Tool検出能力の評価
○加羽澤優,遠藤隆夫,岡部健太,梅田 拓,長谷 亮,乙村浩太郎,羽藤淳平(三菱電機)
大規模言語モデルに基づくAIエージェントは,ツールを選択・実行してタスクを遂行する.しかし実運用で実行に必要なツールが不足する状況が生じる.ツール不足の検出に失敗すると,実行不可能なタスクを実行可能と誤判定し,意図しない動作で信頼性が低下する.信頼性向上にはツール不足の検出能力評価が必要だが,既存研究では評価データセットを手動構築する必要があり大規模評価が困難だった.本研究では,TaskBenchからツール不足の検出能力評価用データセットの自動生成手法を提案する.GPT-4oとHaikuを評価した結果,GPT-4oは高い検出性能を示す一方,Haikuは過剰検出の傾向を示した.