情報処理学会 第86回全国大会 会期:2024年3月15日~17日

5R-05
コールセンターオペレーターの感情認識におけるマルチモーダル学習と多⾔語基盤の効果
○亀岡眞毅,市川 治(滋賀大)
本報告では、音声感情認識モデルにおける多言語基盤と音声データとテキストデータのマルチモーダル学習の効果を検証する。モデルの構成は、事前学習済みモデルをエンコーダとして用いるクロスアテンションモデルである。クロスアテンションにより、テキストトークン列と音声フレームの擬似的なアラインメントを取ることができ、両者を統合した推論を行うことができる。事前学習モデルは性能の進化が顕著であるが、日本語のモデルは学習リソースが少ないため性能が十分ではないことが懸念される。そこで、本報告では多言語で学習されたモデルをエンコーダとして用いることの効果を検証する。