情報処理学会 第84回全国大会 会期:2022年3月3日~5日 情報処理学会 第84回全国大会 会期:2022年3月3日~5日

2W-03
英日機械翻訳のための対訳コーパスフィルタリングの検討
○本田志遠,正木亮太朗,梶原智之(愛媛大)
深層学習に基づく自然言語処理では、訓練データの規模が指数関数的に増加している。これによって近年の自然言語処理は大きく性能を改善しているが、モデル構築のコストが大きいため開発効率は悪い。また、大規模な訓練データは自動収集される場合が多く、ノイズも大量に含まれる。効率的な自然言語処理モデルの開発のために、本研究では訓練データからノイズとなる事例を取り除くコーパスフィルタリングを検討する。英日機械翻訳の実験において、1,000万文対の訓練データを半減させた結果、無作為に選んだデータから訓練されたモデルに比べて、提案手法で選んだデータから訓練されたモデルが高い翻訳品質を達成し、提案手法の有効性を確認できた。