情報処理学会第84回全国大会講演論文集

2W-03

英日機械翻訳のための対訳コーパスフィルタリングの検討

○本田志遠，正木亮太朗，梶原智之（愛媛大）

深層学習に基づく自然言語処理では、訓練データの規模が指数関数的に増加している。これによって近年の自然言語処理は大きく性能を改善しているが、モデル構築のコストが大きいため開発効率は悪い。また、大規模な訓練データは自動収集される場合が多く、ノイズも大量に含まれる。効率的な自然言語処理モデルの開発のために、本研究では訓練データからノイズとなる事例を取り除くコーパスフィルタリングを検討する。英日機械翻訳の実験において、1,000万文対の訓練データを半減させた結果、無作為に選んだデータから訓練されたモデルに比べて、提案手法で選んだデータから訓練されたモデルが高い翻訳品質を達成し、提案手法の有効性を確認できた。