情報処理学会第88回全国大会

大規模言語モデルに基づくAIエージェントは，ツールを選択・実行してタスクを遂行する．しかし実運用で実行に必要なツールが不足する状況が生じる．ツール不足の検出に失敗すると，実行不可能なタスクを実行可能と誤判定し，意図しない動作で信頼性が低下する．信頼性向上にはツール不足の検出能力評価が必要だが，既存研究では評価データセットを手動構築する必要があり大規模評価が困難だった．本研究では，TaskBenchからツール不足の検出能力評価用データセットの自動生成手法を提案する．GPT-4oとHaikuを評価した結果，GPT-4oは高い検出性能を示す一方，Haikuは過剰検出の傾向を示した．