1Q-4
崩れた表記に対応する日本語形態素解析器の開発
○利根川翔,筧 捷彦(早大)
現在、ブログやTwitterなどの普及により、これらの利用者から
大量の文字列情報が投稿されるようになり、有効な情報源となりつつある。
しかし、これらの情報には崩れた日本語表記が含まれ、従来の形態素解析器では、
書き手や読み手のイメージに沿った解析結果を出すのは難しい。

本研究の目的は、崩れた表記が含まれる文を、人のイメージに近い
区切り位置および品詞で形態素解析する手法を考案することである。

我々は、この目的を実現するための機能として「長音節最適化」および
「読み仮名検索」を考案し、それらを搭載した日本語形態素解析器
MoCA(もか)を開発した。
Twitterに投稿された日本語のツイートを利用した実験の結果、
崩れた表記を含む文の解析において、上記の2つの機能が効果を
発揮することを確認できた。

本発表では、MoCAおよび各機能の内容や、得られた効果、
そして課題点を報告する。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について