1E-04
行動計画およびツール実行タスクにおけるLLMエージェントのロバスト性能評価
○遠藤隆夫,梅田 拓,乙村浩太郎,加羽澤優,岡部健太,長谷 亮,羽藤淳平(三菱電機)
LLMは高度な自然言語処理能力を基盤に、自律的に行動計画を策定したり外部ツールを実行したりするエージェントとしての応用が期待されている。一方で、LLMの知識を問うタスクでは、回答の選択肢の順番を変えたり問題文の表現を変えたりするだけで、LLMの回答結果が揺らぐことが報告されており、LLMをエージェントとして活用する際の大きな懸念となっている。本研究では、行動計画や外部ツールの利用を伴うタスクのベンチマークにおいて、ユーザーの指示の表現を変えたり、使用可能なツールの情報をLLMに与える際にその順番を変えたりした場合に、LLMの応答の変化の程度を計測し 、LLMのエージェントとしての一貫性や頑健性を評価する。