情報処理学会60年のあゆみ
第3編―情報技術の発展と展望
[SLP]音声言語情報処理研究会

 

1. 最近10年間の動向

1992年に音声言語情報処理研究会の前身となる「音声言語処理と音声入出力装置研究グループ」が発足し,1994年には現在の音声言語情報処理研究会(SIG-SLP)として認められた.本会の60年の歴史と比べれば短いが,研究会発足からはすでに25年以上が経過したことになる.

本研究会の登録数および発表件数の推移を表1に示す.登録数は2007年頃から漸減傾向にあったが,ここ5年で見れば下げ止まっており,発表件数も2015年を底に増加に転じた.発表件数の増加については音楽情報科学研究会(MUS)と共催の「音学シンポジウム」(6月),電子情報通信学会音声研究会(SP)と共催の「音声言語シンポジウム」(12月)で多くのポスター発表を受け入れていることも要因としては大きい.

表1 音声言語情報処理研究会における登録数,発表件数の推移(2010~2019)

過去には国内研究会での発表後にその内容をジャーナル論文にまとめるという研究発表の流れがあったが,現在では英語での研究発表が重視され,国内の研究会発表は敬遠されがちである.また,昨今では国内研究会での発表内容と類似の研究を国際会議等に投稿して,国外の研究者から二重投稿の疑念を持たれるケースもあるため,まとまった研究ほど研究会の場では発表しにくくなっているとも考えられる.

一方,国内研究会の最大のメリットは近い分野の研究者が互いに課題や情報を気軽に持ち合い,議論を通してさまざまな形で課題解決のヒントを得ることができる点にあるといえる.特に学生を中心に研究発表を奨励すること,研究者の深い交流の場を設けることは現在においても大いに意義のあるものと考えている.

まず,修士以下の学生の発表に対しては各シンポジウムでポスター賞や学生奨励賞を授与するほか,2017年度からは,博士課程の学生および口頭発表も含めて年間での学生の優秀な発表を選定し,研究会の企業スポンサー名を冠した「企業賞」の授与を始めた.学生諸君が研究会発表を行ううえでの新たなモチベーションとなることを期待している.

また,研究者同士が交流を深め,十分な時間を取って議論ができる場として,温泉での合宿形式の研究会(音泉研究会)を本研究会の発足当時から,休むことなく年2回開催している.国際会議参加報告と称して,最新の研究動向を紹介するセッションを設けたり,最近では企業スポンサーからの寄付を活用して国内外の著名な研究者の招待講演を企画したりして,研究に関する議論を活性化している.この合宿形式研究会は研究者間の交流を深め,これまでにもさまざまなワーキンググループや研究プロジェクトの発足に寄与してきた.毎回50名以上の参加があり,深夜まで熱い議論が行われるなど,今も音声関連分野の研究者にとって,大変重要なイベントとなっている.

2. 研究分野の変遷

研究会発足後の15年間(2010年頃まで)は音声認識や音声合成といった技術への期待が特に高まり,またこの分野の基礎研究にも多くの資金が投入された時期でもあった.「日本語話し言葉コーパス」に代表される日本語音声の大規模コーパスが整備され,日本でも音声認識,音声合成の両面で研究が加速された.ただ,認識性能や合成音声の品質は市場が期待したレベルに至っていたとはいえず,相変わらずコールセンターや車載機器での利用が中心で,期待されたほどの利用の拡大は見られなかった.

初代iPhoneが2007年に発売され,その後日本でもスマートフォンの利用者数が急激に伸びた.これが特に音声言語関連技術に大きな影響を与えることになる.スマートフォンの普及とともに2010年頃から提供され始めた音声検索アプリ(Siri,Google検索,しゃべってコンシェルなど)は当初十分な性能を出していなかったが,大規模な音声データ(ビッグデータ)の収集が可能になったことによって瞬く間にその性能が改善され,ユーザに受け入れられるようになった.音声検索に加え,音声翻訳ソフトなど,さまざまなアプリの提供も広がり,最近では,スマートスピーカといった形態で,家庭内でも広く,日常的に音声インタフェースが利用されるようになっている.

一方,基礎技術的な側面から見ても,音声言語情報処理研究を取り巻く情勢はこの10年で大きく変化している.2010年以降,これまで長年研究されて来た隠れマルコフモデル(HMM)やN-gramモデルといった統計モデルの改良に音声ビッグデータが活用されるようになり,先に述べたような大幅な精度改善を実現した.

さらに,2013年頃からは深層ニューラルネットワーク(DNN)に関する手法が台頭し,音声言語情報処理の方法論自体が大きく変化し始めた.当初,音声認識ではこれまでの生成モデルに基づく方法を保持したまま,HMMの出力確率をDNNで置き換えたもの(DNN-HMMハイブリッドモデル)や,N-gramモデルを補うものとして再帰型ニューラルネットワーク(RNN)の利用が検討されたが,近年ではそれまでの生成モデルに基づく方法ではなく,直接入力音声波形から文字列を出力する,End-to-Endと呼ばれる手法の研究が大変活発になっている.これはテキスト音声合成の研究においても同様で,2012年頃からそれまでのHMMなどによる音響特徴量生成部を置き換える手段としてDNNが検討され始め,2015年頃からはDNNベースの音声合成が広く用いられるようになった.最近では音声認識同様,文字列から直接音声波形を生成するEnd-to-Endの手法が開発され,すでに商用利用も始まっている.この他,雑音除去,音声分離,音声対話制御や話者認識などさまざまな音声言語情報処理においても,DNNは技術的に大きな変革をもたらしつつある.

3. 今後の展望

この10年の中で,音声言語情報処理はビッグデータと深層ニューラルネットワークという大変強力な研究手段を手にし,明らかなパラダイムシフトを迎えた.特にこの5年ほどの間の関連研究の進展は目覚ましいものがある.すでに大きな成果も得られているが,日々新たな技術が生み出されており,その技術改良はとどまることを知らない.なお,音声認識の分野では2016年から2017年にかけて,IBMとMicrosoftがSwitchboardと呼ばれる電話会話音声認識タスクにおいて,「人間と同等の認識精度を達成した」と発表して話題となったが,限定的な状況のタスクを対象としたもので,雑音への対処など,まだ多くの研究課題を残している.また,人間の認識能力が我々の研究のゴールというわけでもなく,さらにその上を目指す必要がある.音声合成においてもその品質は近年大きく改善されたが,人間の多様な感情を表現できるようにモデルを制御する方法など,検討すべき課題はまだ多い.残された課題の解決に向け,音声認識や音声合成に限らず,音声言語情報処理に関する研究は今後も引き続き活発かつ精力的に行われるだろう.

(西村雅史)

« PrevNext »

 

目次に戻る

All Rights Reserved, Copyright (C) Information Processing Society of Japan