情報処理学会第88回全国大会

日本語ヘイトスピーチ検出モデル構築における教師データ不足の課題に対し、本研究はLLMを用いた擬似ラベリングの性能向上を目指した。具体的には、RAGベースのFew-shot学習を提案した。本手法では、分類対象のテキストと文脈的に関連性の高い事例を動的に抽出してプロンプトに追加することで、LLMの分類精度向上を促進した。この改良により、擬似ラベリングのF1スコアは従来手法から大幅に向上した。また、提案手法で生成されたLLMラベル付きデータは、人間ラベル付きデータと同等の精度を持つ検出モデルの構築が可能であることを実証した。これらの結果から、本手法が人手ラベリング作業の削減に貢献することが分かった。