情報処理学会 第86回全国大会 会期:2024年3月15日~17日

5W-03
機械学習を用いた英語学習者のためのReading教材の難易度推定
○岡本真輝,来住伸子(津田塾大)
英語のReading教材について、外国語学習の運用能力の国際基準であるCFERレベルを推定することを試みている。先行研究では、学習語彙リストの語彙を特徴量としてクラスタリングを試みた。本研究では、Reading教材のデータを増やし、NB, SVMなどの機械学習方法も追加し、さらにBERTなどのLLMを使った文書分類を使ってCEFRレベルの推定を試みた。現在のところ、Simple WikipediaとWikipediaの難易度分類は95%以上の精度で行えているが、英語Reading教材の難易度分類は十分な精度が出ていない。その理由は、CEFRレベルで重要な語彙や文法という考え方がLLMにはあまり反映されていないのではないかと考える。これらを踏まえて今後のCEFRレベルの推定方法について考察する。