抄録
H-033
マルチモーダル機械学習における学習法の検討
藤森真綱・遠藤 伶・河合吉彦・望月貴裕(NHK)
放送局では近年、動画、音声、字幕が含まれる放送映像や、テキストとともに画像や動画が投稿されるSNSといった、複数の要素からなる情報を分析し、活用する重要性が増してきている。そのような複数種類の情報を入力するマルチモーダル機械学習は、単独の情報を利用する場合に比べ精度が向上するため、近年盛んに研究されている。本稿では、マルチモーダル機械学習をSNS分類に適用するため、Twitterに投稿された火事や交通事故などの災害に関する画像付きのテキスト情報を用いたデータセットを構築した。また、各モーダリティの有用性を考慮した学習法およびモデルを提案し、実験により従来法に比べ分類精度が向上することを確認した。