情報処理学会 第84回全国大会 会期:2022年3月3日~5日 情報処理学会 第84回全国大会 会期:2022年3月3日~5日

2Q-07
CNN-LSTMを用いた顔画像による発話内容推定に関する基礎検討
○本田悠将,中村悦郎,景山陽一(秋田大),廣瀬 聡(日本ビジネスシステムズ)
音声認識に基づいた議事録自動作成システムは,会議や業務での発話記録を効率よく行うことが可能である。しかしながら、音声以外の環境音が重複すると,音声認識精度が低下する場合がある。一方、発話に伴う口唇の発話動作は、発話固有の特徴を保持することができると共に,雑音の多い環境でも取得可能である。すなわち、発話に伴う口唇の発話動作を利用して発話内容を推定することは、音声認識精度の向上に寄与すると考える。本研究では、議事録自動作成システムにおける音声認識精度を向上させることを目的として,顔情報を用いた発話内容推定に関する基礎検討を行う。