情報処理学会 第86回全国大会 会期:2024年3月15日~17日

7ZC-06
自然言語処理におけるデータ拡張の強度とモデル性能の関係
○和田翔熙(京大),森本尚之(三重大)
データ拡張はデータ収集が困難である場合などに、データの数を増やすことでモデルの汎化性能の向上に寄与することが知られている。
データ拡張戦略の設計は、「手法の組み合わせ」「拡張操作を実行する確率」「拡張強度」の最適化によって行われる。
本研究では、自然言語処理におけるデータ拡張強度の指標として「忠実さ」「多様さ」「自然さ」を利用する手法を提案する。
自然言語処理においても、画像処理と同様に「強い拡張」「弱い拡張」を利用することでモデルの性能を向上させられると考えられる。
実験により、自然言語処理におけるデータ拡張の強度とモデル性能の関係について評価した。