FIT2016 第15回情報科学技術フォーラム 開催日:2016年9月7日(水)~9日(金) 会場:富山大学キャンパス
抄録
E-014
コーパスの自動生成・識別による少量コーパスからの統計的機械翻訳
藤原菜々美・山内真樹(パナソニック)
近年登場している統計的機械翻訳システムは,大量の対訳コーパスから,翻訳に必要なモデルを統計的に獲得する.対訳コーパス数の衆寡が翻訳性能に直結する一方で,対訳コーパスの収集・獲得は高コストであり,実用化課題である.これに鑑み,我々は少量の対訳コーパスを元に「対訳の候補文を生成し,識別学習により候補文から正しい対訳コーパスを自動的に獲得」する自動対訳コーパス生成技術を開発している.良質な対訳コーパスの抽出によって翻訳性能の向上が確認できているが,その自動化は必要不可欠である.そこで本稿では,候補文中に出現する複数のN-gramの重みを考慮した自動識別器を構築し,その翻訳性能について報告する.