情報処理学会 第88回全国大会

6D-03
RAGシステムにおける最新版文書の自動選択手法
○久保田稜,西田祥子,濱田貴広(NTT)
大規模言語モデル(LLM)の知識を低コストで拡張する手法として、検索拡張生成(RAG)が広く用いられており、組織内の大量の文書から必要な情報をLLMが取得するのに有用である。しかし、多くの組織のファイルストレージでは、ファイルのコピー・更新が繰り返され、新旧バージョンが混在することが多い。RAGが最新の正しい情報を取得するには、最新版の文書を特定する必要がある。本論文では、LLMを用いて、更新日時だけでなくファイル名などのメタデータに含まれるバージョン情報も考慮して正確に最新版を自動選択する手法を提案するとともに、データセットを用いた評価結果を報告する。