4ZD-07
Target情報を利用した日本語皮肉の悪口性分類-データセット構築とモデル提案-
○袖山拓真,鈴木海友,松澤智史(東理大)
既存研究では、日本語皮肉コーパスが十分に整備されておらず、悪口性やtarget(皮肉対象)を含むアノテーションはほとんど存在しない。本研究では、日本語における皮肉表現のうち、特に悪口性を伴う皮肉の検出を目的とし、データセット構築と三値分類モデルを提案する。英語のSARCデータセットをLLM人手による多段階チェックを通して日本語化し、「悪口な皮肉・非悪口な皮肉・非皮肉」の三値ラベルとtarget情報を付与したデータセットを構築する。さらに、このデータセットを用いて日本語BERTを基盤とした三値分類モデルを生成し、分類精度向上を図る。