情報処理学会 第88回全国大会

1X-02
中国語と日本語における大規模言語モデル生成文の検出
○Shuying Li,栃窪孝也(日大)
大規模言語モデル(LLM)の普及に伴い、AIが生成した文と人が入力した文を識別する技術の重要性が高まっている。本研究では、日本語と中国語を対象に、深層学習モデルと統計的特徴量に基づく生成文検出手法を比較し、言語構造の違いが検出特性に与える影響を明らかにすることを目的とする。
データセットとして、両言語において質問応答形式の文とLLM生成文をそれぞれ1000件収集し、RoBERTaモデルのファインチューニングおよび複数の統計的特徴量の算出を行った。これらの分析を通じ、日中両言語における検出手法の適用可能性と、言語依存的な特性を把握する。