情報処理学会第85回全国大会 会期:2023年3月2日~4日 会場:電気通信大学

4Y-06
CEFR難易度別単語リストとZipf scaleの対応付けによる教師なし難解語検出
○伊藤和樹,メッサー真秀,島本大輔,撫中達司(東海大)
教師ありデータを必要としない難解語検出(Complex-Word-Identification: CWI)のための新しい教師なし学習モデルを提案する.CWIは,難しい文章をより平易な文章に変換する文章平易化タスクに活用する基礎技術として実用化が期待される.しかし,扱う単語の種類が膨大で,かつモデルの性能が教師ありデータ付きコーパスに強く依存する性質があるため,ラベル付きコーパスを用いた教師あり学習によるCWIは実用化に至っていない.本研究の目的は,言語能力を初心者のA1からネイティブに近いレベルのC2までの6段階で評価する国際指標であるCEFRと日常会話における単語頻度を計測するZipf scaleを対応づけることにより,個人の英語学習レベルに基づいた教師なし難解語検出を行うことである.