情報処理学会 第88回全国大会

5X-01
日本人中国語学習者による日中同形異義語誤りの検出
○中山花楓,大野誠寛(電機大)
日本語と中国語には同一の表記をもつものの意味や用法が異なる「日中同形異義語」が存在しており,これらは学習者の誤用の大きな原因となっている.日中同形異義語に限らず,作文における各種誤りを検出する従来研究では一般に教師あり学習の手法を採用しているが,その精度は学習データの量と質に大きく依存するという課題があった.特に,同形異義語の誤用に特化した教師データを十分に収集することは容易ではない.そこで本稿では,多言語BERTによる文脈依存単語埋め込みとクラスタリングを利用し,教師データを必要としない,日中同形異義語の誤り検出手法を提案する.