4R-1
統計翻訳のための文情報量を用いた対訳文選択
○中島正裕,山本博史(近畿大)
統計翻訳の学習にはパラレルコーパスが必要である。そのためには、新聞記事など異なる言語で書かれた同一内容のドキュメントが使われることが一般的である。しかし、新聞記事などの場合は記事単位では対訳対応がとれているが、統計翻訳に必要な文単位での対訳対応は必ずしもとれてはいない。そのため、文の類似度などを用いて記事対記事の対訳関係から、文対文の対訳関係を抽出する必要がある。しかしながら、その中には対訳関係としては不適切であり、学習に悪影響を与える文対も含まれる可能性がある。本手法では、対訳文間の文情報量を用いて、そのような文対を削除することで、翻訳性能の向上を図る。