情報処理学会第88回全国大会

本研究は、日本語ニュース要約におけるハルシネーション抑制手法を検討した。XL-Sumを用いた実験の結果、直感的に有効と思われる役割分離型エージェントや複数LLM合議制はハルシネーション抑制に寄与しづらいことが分かった。その原因として、LLM間の判断基準の乖離を定量的に示した。一方、複数手法で生成した要約候補から、元記事と要約の含意・矛盾を判定する自然言語推論（NLI）評価器により最適候補を選択する手法は、単体最高手法と比較してNLI事実性および矛盾率の改善を達成した。また、NLI評価とLLM-as-Judgeの相関がほぼ0であり、本タスクにおいては、両者が異なる側面（忠実性vs完全性）を測定していることを発見した。