4Q-08
深層学習を用いた読唇システム
○ケンジ パリアスカ(中京大)
本研究は深層学習を用いて読唇システムを構築することを目的としている。ここで読唇とは、相手の唇の動きなどを見て言葉を読み取る技術を意味する。本研究では読唇する単語を限定し、その限定された中での読唇を試みることにより日本語の読唇システムの構築への可能性を探ろうとしている。研究の進め方は次の通りである。まず学習データの素材を作成し、次に学習モデルを作成、最後に検証を行い、既存のシステムとその分類器の性能の比較する。素材作成では不特定多数の話者に対する読唇を想定しているので複数個の単語を多数の人に発話してもらい、発話時の口周りだけを撮影し、データ拡張などを施した。学習モデルの作成には深層学習フレームワークChainerを使用した。システムの検証の結果、単語による性能の偏りがみられるという問題が明らかになった。

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会