大規模テキストからの手続き型知識の自動獲得に関する研究

 
小澤 俊介

(株)はてな アプリケーションエンジニア


[背景]知識獲得,テキストマイニング
[問題]ノウハウ,言語資源の用途,外出行動に対するアドバイス
[貢献]手続き型知識の体系的獲得

近年では,WikipediaやKnolなどの知識共有サイトが数多く作られ,ユーザ加者によって知識が整理,及び,提供されている.人間が知りたい知識を整理することは多くの人の役に立つが,あらゆる知識に対して,人手により収集し,整理することは困難であるため,テキストから知識を自動獲得することが望まれる.近年では,人間が何か知りたいことがある場合,QAサイトで質問するという手段がよく用いられる.すなわち,QAサイトに投稿された質問は人間が知りたい知識を表している.QAサイトに投稿される質問は大きく分けて,回答が人名や地名などの名詞で表される質問(factoid型)と回答が意見や理由などの文章で表される質問(non-factoid型)の2種類があり,このうち,より多く尋ねられるのはnon-factoid型の質問である.さらに,non-factoid型の質問は手続き型,叙述型,意見型,理由型,定義型の5種類に分類でき,これらのうち,QAサイトで最もよく尋ねられるのは手続き型の質問である.すなわち,人間が強く知りたい知識は手続き型知識である.
 
本論文では,人間が強く知りたい知識である手続き型知識を獲得する手法を提案する.手続き型知識とは物事の方法や手続きに関する知識であり,例えば,料理のレシピやパスポートの入手方法が挙げられる.具体的には,(1)ノウハウ,(2)言語資源の用途,(3)外出行動に対するアドバイスのそれぞれを獲得する手法について論じる.
 
(1)では,ノウハウを知るためにWeb を参照することが多くなっているが,既存のWeb 検索でノウハウのみを検索することは容易ではないという問題ある.これに対し,モノとその使われ方に着目することにより,Web からノウハウを獲得する手法を提案し,ノウハウ獲得においてモノとその使われ方が重要な役割を果たすことを定量的に明らかにした.(2)では,利用目的に合致した言語資源を広範に探すことが困難であるため,既存の言語資源が十分に活用されていないという問題がある.言語資源の効果的な利用の促進には,用途をキーに言語資源を検索できること,またその際,利用者の経験から生みだされた用途も重要になるという認識に基づき,言語資源の用途情報を自動獲得した.獲得した用途情報を言語資源メタデータデータベースSHACHIに格納することにより,言語資源検索システムを構築し,言語資源検索に自動獲得した用途情報が有用に働くことを示した.(3)では,登山や観光などの外出行動をする際には,必要な持ち物や目的地への行き方など外出前に得ておきたい情報がある.そこで,外出行動前のユーザに有用な情報を提供することを目的に,事前に入手すると役立つアドバイスをWeb から獲得する手法を提案する.本手法により,外出行動前に入手すると役立つアドバイスを自動獲得できることを示した.


 
 (2012年8月30日受付)
 
取得年月日:2012年3月
学位種別 :博士(情報科学)
大  学 :名古屋大学

推薦文:(自然言語処理研究会)


QAサイトでよく質問されるノウハウなどの手続き型知識はこれまで整理されておらず,獲得手法も確立されていなかった.これに対し本論文では手続き型知識を体系的に整理し,各分類に属する知識の代表例について斬新な自動獲得手法を提案しており,また,研究成果の一部をサービスとして公開するなど実用性も評価できる.

著者からの一言


学位を取得できるか不安な時期もありましたが,博士の3年間で研究の楽しさや奥深さなど多くのことを学ぶことができました.4月からはエンジニアとしてアプリ開発に携わっていますが,アプリ開発の中でこれまでの研究で培った経験・知識を活かしていきたいと考えています.