4W-03
機械翻訳と多言語RoBERTaを利用した日本語での攻撃的な言葉の自動検出
○藤原知樹,伊藤彰則,能勢 隆(東北大)
攻撃的な言葉の検出に類する研究は英語環境下では盛んに行われているものの、日本語環境下での研究はあまり盛んではなく、公開されているコーパスも存在しない。そこで、機械翻訳や多言語データで事前学習済みの言語モデルを活用することで、外国語のコーパスを利用して日本語対応の検出モデルを構築した。本研究では、複数の言語モデルおよび学習条件を比較するとともに、文の有害度を推定する日本語対応のAPIとも性能比較を行う。また、評価データについても正確なデータがないため、ノイズが含まれる3種類の評価データに対する検出性能の平均をとることで各モデルの性能評価を行う。