情報処理学会第85回全国大会 会期:2023年3月2日~4日 会場:電気通信大学

1W-07
日本語文読唇向けデータセット構築のための口形素ベースコーパスの基礎検討
○北村亮太,寺澤卓也(東京工科大)
 サイレント音声認識分野の1つである読唇は、口唇の動画像の動きを入力としており、近年の読唇研究は深層学習による画像認識が主である。
 一般に深層学習には大量のデータが必要となるため、データセットが存在することが望ましい。既存の日本語文読唇向けのデータセットはいくつか存在するものの、音素を考慮した文によって構成されている。しかし読唇の性質上、口形素を考慮する方が自然かつ文の冗長性が排除され、構成内容に適すると考えた。
 本研究では日本語文読唇向けのデータセット作成のために、口形素を基にしたコーパスを提案する。そして、日本語文読唇向けデータセットの構築に口形素を考慮することの有効性を検証する。