5P-5
潜在情報に基づくバイリンガルテキストコーパス生成
○江里口瑛子,小林一郎(お茶の水女子大)
異なる言語で書かれたテキスト処理を同時に行う際には、それら言語の比較コーパスが必要となる。比較コーパス生成手法としては、テキスト中に出現する単語の頻度情報を利用したものや、ルールベース機械翻訳手法を利用したものなどが提案されている。本研究では、文書の生成モデルを利用したバイリンガルLDAに着目し、バイリンガルLDAを用いて生成された比較コーパスに関する考察を行う。バイリンガルLDAとは、通常のLDAが処理する言語の数を二言語に拡張したモデルであり、文書内に含まれる潜在トピック割合が、異なる言語テキスト間において共有されているという仮定の下、各々の潜在トピック情報から言語毎の単語が生成されるとするものである。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について