1Y-06
日本語ニュース要約におけるNLI評価器による要約候補選択の有効性:役割分離型・合議制アプローチとの比較
○松本祐穂,石川真之介(立教大)
本研究は、日本語ニュース要約におけるハルシネーション抑制手法を検討した。XL-Sumを用いた実験の結果、直感的に有効と思われる役割分離型エージェントや複数LLM合議制はハルシネーション抑制に寄与しづらいことが分かった。その原因として、LLM間の判断基準の乖離を定量的に示した。一方、複数手法で生成した要約候補から、元記事と要約の含意・矛盾を判定する自然言語推論(NLI)評価器により最適候補を選択する手法は、単体最高手法と比較してNLI事実性および矛盾率の改善を達成した。また、NLI評価とLLM-as-Judgeの相関がほぼ0であり、本タスクにおいては、両者が異なる側面(忠実性vs完全性)を測定していることを発見した。