4Q-01
話し言葉から書き言葉への変換における対訳単位分割
○下田裕晃(東工大),住田一男(東芝)
統計的機械翻訳を用いて日本語の話し言葉を書き言葉に変換する。
話し言葉は書き言葉にはない表現があり、また可読性が良くないという特徴がある。
また、例えば機械翻訳は書き言葉向けに開発されてきたことから、音声認識結果を機械翻訳する場合は、話し言葉を書き言葉に整形することによって翻訳精度が向上する。
本研究では、統計的機械翻訳のモデル学習で用いる対訳コーパスの対訳単位に着目した。
発言単位で対応付けられた話し言葉と書き言葉との対訳コーパスに対して、文単位・文節単位など複数種類の対訳コーパスを生成した。
これらの対訳コーパスを用いて話し言葉から書き言葉への変換に関する評価実験を行い、対訳単位の違いと変換精度の関係について検証を行った。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について