情報処理学会 第84回全国大会 会期:2022年3月3日~5日 情報処理学会 第84回全国大会 会期:2022年3月3日~5日

5V-07
OCRを利用した崩れた表記の自動修正手法の提案
○秋山大五郎,松原雅文(岩手県大)
 近年,SNSのユーザ数は増加し続けており一般ユーザのみならず企業 や政治家なども積極的に情報を発信する場となっている.多種多様な ユーザが発信するデータは膨大であり,それらのデータを利用する動き も活発になっている.しかし,特にSNS上では「ネ申」や「キょぅ」などの崩れた表記の単語 が含まれるため一部のデータを利用しにくい状況にある.
 そこで,この問題点を解決するため,崩れた表記の単語を元の正しい 単語に置き換えることを本研究の目的とする.
 具体的には,崩れた表記の単語に対し文脈情報とOCRを用いて修正 する手法を提案する.