Computing Co-occurrence with Kernels

(邦訳:カーネル法に基づく共起の計算)
 
横井 祥
東北大学大学院情報科学研究科 助教
 
キーワード
自然言語処理 共起 類似 カーネル法

[背景]ふたつの文の「相性のよさ」を計算したい

[問題]既存の計算法には多くのデメリットがある(計算時間,データ量,解釈性)
[貢献]文の間の「似ている度合い」の情報をうまく活用するとすべての問題が解決


 われわれ人間が日常的に使っている「言葉」をコンピュータに理解させ,さらにはコンピュータ自身が自在に言語を運用できるようになるには一体どのような仕組みを作れば良いでしょう.自然言語処理と呼ばれる分野では日々この難題に取り組んでいます.最近では大規模なテキストデータ(SNSの投稿,新聞記事,などなど)が手に入るようになり,またデータの統計的な傾向をコンピュータ自身に学ばせる機械学習と呼ばれる技術が大きく発展したことで,自然言語処理は飛躍的な進歩を遂げました.Google翻訳をはじめとした機械翻訳システムの出力は非常に流暢になりましたし,iPhoneのSiriやGoogle Home,あるいは「人工知能」が扮する企業の窓口担当者やキャラクターに(日本語を使って!)問い合わせることもかなり自由にできるようになりました.

 機械翻訳システムや対話システムの実現に際して問題になるのが,ふたつの文の共起(きょうき)の強さ,つまりふたつの文の相性の良さの測りかたです.たとえば対話システムが「財布落とした……」と話しかけられとき,「それはつらい……」「どのブランドが好きですか?」「わからないです」のうちどれを返せば良いかという問題はまさにこの共起の問題です.人間であれば,「財布落とした → つらいね」という文の組み合わせが「財布落とした → どのブランドが好き」よりも圧倒的によく共起する(人間同士のコミュニケーションとして自然であり文同士の相性がよい)ことを知っていいます.しかし計算機にとって共起の推定は難題です.よく利用されるのは情報理論に基づいた尺度なのですが,これはデータが大きいと計算時間がかかり,データが小さいとうまく動かず,また「なぜ」共起が強い(弱い)と推定されたかその理由が示されずシステムの改善が困難です.

 この研究では,情報理論で書かれた尺度をカーネル法の言葉に置き換えることによってこれらの問題を一気に解決します.肝は,文のペアが与えられたときその間の共起の強さを直接計算「しない」ことです.その代わり,左も似ていて右も似ているデータを過去に見たことがあれば共起する,と考えます.つまり「昨日財布なくした → うわ,厳しいね」というデータを見たことがあれば「財布落とした → つらいね」という初見の組合せも共起しやすいだろうと推察するのです.この単純な考え方を使うと,推定は高速になり,少量のデータでもうまく動き,しかも計算の理由がわかる尺度が生まれます.作った尺度を実際の機械翻訳システムや対話システムに導入するとシステムの品質が向上しました.さらに計算機に常識を獲得させるという人工知能の黎明期からの問題にも役に立つことを示しました.


 
 
(2020年6月15日受付)
 
取得年月日:2020年3月
学位種別:博士(情報科学)
大学:東北大学



推薦文
:(自然言語処理研究会)


本論文は,自然言語表現同士の結びつきの強さ(共起の強さ)にかかわるさまざまな問題に,言語の連続表現とカーネル法を用いて統一的に対処する方法論を示している.提案法は計算量,解釈性,疎な表現への適用可能性など多岐にわたる観点で理論的・実験的な有用性と新規性を持ち,当該分野における学術的貢献が大きい.


研究生活


ぱっと見ではまったく異なるコレとコレは,ある側面からみるとすごく似ている.なるほど,つまりコレはこういう構造を持っていたのか.……という種類の「分かる喜び」を得るために今も楽しく研究活動を続けています.今はよく理解できない対象も,もしかしたらそれによく似た(それをよくモデル化できる)情報科学や数学の言葉があるかもしれません.わからない対象に対して形式的な記述をうまく与えることさえできれば,問題は解決まで一気に動き出すものです.この「知らないものを知っている言葉で書き換える」という考えかたは問題解決の道具であるばかりでなく,わたしたち人間が何かを理解する仕方そのものでもあります.抽象的な新しい概念は,具体例を通じて,あるいは比喩を通じて「分かる」わけです.幼少期を過ぎても「なんで?」という心の声が止まらない人たちにとって研究という活動はとてもおすすめできるものです.