情報処理学会第88回全国大会

LLMは高度な自然言語処理能力を基盤に、自律的に行動計画を策定したり外部ツールを実行したりするエージェントとしての応用が期待されている。一方で、LLMの知識を問うタスクでは、回答の選択肢の順番を変えたり問題文の表現を変えたりするだけで、LLMの回答結果が揺らぐことが報告されており、LLMをエージェントとして活用する際の大きな懸念となっている。本研究では、行動計画や外部ツールの利用を伴うタスクのベンチマークにおいて、ユーザーの指示の表現を変えたり、使用可能なツールの情報をLLMに与える際にその順番を変えたりした場合に、LLMの応答の変化の程度を計測し、LLMのエージェントとしての一貫性や頑健性を評価する。