4ZD-05
YouTubeコメントを対象とする日本語有害表現検出モデルの構築と評価
○中村穗花,風間一洋(和歌山大)
近年,ソーシャルメディアでは誹謗中傷や攻撃的表現が増え,議論の健全性を損なっている。しかし YouTube コメントは口語的で独自語彙が多く,短文で省略も多いため,一般的データセットのみでの学習では十分な性能を得られない可能性がある。そこで本研究は,日本語 のYouTube コメントに特化した有害表現検出モデルを作成する。有害性を複数レベルおよびカテゴリで付与したデータセットを用いて日本語 T5 をファインチューニングして,YouTube コメントに対する性能を評価する。また,独自にラベル付けした YouTube コメントデータを追加することで性能向上が得られるかを検証する。