4ZA-05
Gesture-to-talkによるサイネージ端末用の音声区間検出の改善
大学に訪れる人を対象としているMMDAgentを用いたサイネージ端末を作成した。しかし何も音声区間検出が含まれていないサイネージ端末は、雑音に反応してしまいサイネージ端末がひとりでに話し始めてしまうという問題があった。そのため確実な音声入力を取得するために、push-to-talkや口唇画像で発話中かどうかの判別し音声区間を検出する手法が存在する。しかし今のマスクそして非接触の時代ではどちらも推奨されない。また非接触の発話区間検知としてAttention-wordを用いたものがあるが、その場合発話終了時点が分からないという問題があった。本報告では上記の問題点を解決する特定のポーズをトークスイッチとしたGesture-to-talk によるサイネージ端末用の音声区間検出の改善を示した。