情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス 情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス

6S-07
CNNを用いた日本語単語読唇における異なる発話形態の影響
○北村亮太,寺澤卓也(東京工科大)
昨今検索などに用いられる音声認識技術は、周囲の音が大きい環境では認識がされにくく、静穏な環境では心理的要因から使用を躊躇う事が考えられる。
これに対し読唇は画像認識手法であり、発話時の口の動きを基に単語を認識する。その為、周囲の音に左右されずに使用できる他、無声による使用も可能である。
近年の読唇認識分野では深層学習を用いた研究が見られるが、無声発話の使用を考慮すると、発話形態による口の動きの違いがモデルの精度に影響するか検証する必要がある。
そこで本研究では、有声、囁き声、無声による単語発話時の動画を基に3DCNNモデルを構築し、発話形態の違いが単語分類精度に影響を及ぼすのか検証する。