連続セミナー2012「ビッグデータとスマートな社会」全6回シリーズで開催
ホーム > スケジュール >第6回「ビッグデータ時代の自然言語処理」
第6回「ビッグデータ時代の自然言語処理」 開催日:2012年12月6日(木)10:00-17:00
第6回の概要
ウェブ、ソーシャルメディア等の爆発的な普及によってビッグデータ時代を迎えた自然言語処理。技術の深化、社会との関わりの両面で期を画す大きな変革が起こっている。第6回のセミナーでは、アカデミアから産業界まで多様なレイヤの第一線でご活躍中の自然言語処理研究者を招いて、大規模テキストデータを利用した言語解析技術の高度化、テキストマイニングからeコマースまで拡大するアプリケーション、そうした大規模言語処理を支えるプラットフォームなど、最新動向を紹介する。
コーディネータ:乾 健太郎 (東北大学 大学院 情報科学研究科 教授)
【略歴】1995年東京工業大学大学院情報理工学研究科博士課程修了、博士(工学)。同大学助手、九州工業大学助教授、奈良先端科学技術大学院大学助教授を経て、2010年より現職。自然言語処理、知識処理の研究に従事。OLING/ACL-2006 Best Asian NLP Paper Award、言語処理学会年次大会最優秀発表賞等、受賞。
プログラム
OPENING 10:00-10:10
SESSION.1 10:10-11:00
大規模知識獲得に基づく頑健な日本語実テキスト解析
【講演概要】Web上の大規模テキストを分析し、価値ある情報を抽出するための第一歩として、日本語実テキストの基盤解析の現状を紹介する。Web上の実テキストを扱うためには、口語調表現、くだけた表現、新語などに対する超頑健が処理が必要となる。これはもはや人手による規則整備などは不可能な世界であり、新語等をWebテキストから自動獲得し、それを用いて解析を頑健化するという自己増殖的アプローチが必須となる。文の構造をとらえ、「誰が何をどうした」という述語項構造を明らかにする処理も同様である。まず述語項構造解析結果から確からしい部分を抽出して計算機用の知識として整理し、それを用いて述語項構造解析を高度化する。さらには、Webテキストから同義・類義表現を獲得することも可能である、このような知識獲得、実テキスト解析を総動員することにより、2つの文が同じことを意味するかどうかを判断する含意認識タスクに挑戦する。
講師:黒橋 禎夫 (京都大学 大学院 情報学研究科 教授)
【略歴】1994年京都大学大学院工学研究科電気工学第二専攻博士課程修了。博士(工学)。2006年4月より京都大学大学院情報学研究科教授。自然言語処理、知識情報処理の研究に従事。言語処理学会10周年記念論文賞等を受賞。
SESSION.2 11:00-11:50
NICTの情報分析・言語資源構築技術
【講演概要】いわゆるビッグデータの代表の一つが膨大なテキスト情報、特にWeb上に存在する膨大なWebページである。NICTでは恒常的にWebページを収集し、億単位のWebページを日常的に分析し、また、そうしたWebページから言語の知的処理で必要となる辞書、コーパスなどを自動構築して、ALAGINフォーラム等を介して社会に提供している。また、WISDOMというWeb上の情報を分析するシステムも一般にむけ公開している。本講演ではこうしたアクティビティの背後にある技術、研究開発、ビジョンを紹介する。具体的な技術としてはテキストの様々な意味的分類や、テキスト間の意味的関係を自動認識する技術やそのための言語資源を自動構築する技術、さらには、音声質問応答システム「一休」や前述したWISDOMの技術、さらには今後実用化を目指す膨大なテキストをベースとする仮説生成技術や、そもそも膨大なWebページを処理する基盤技術について解説する。
講師:鳥澤 健太郎 (独立行政法人 情報通信研究機構 ユニバーサルコミュニケーション研究所 情報分析研究室 耐災害ICT研究センター 情報配信基盤研究室(兼務))
【略歴】1992年東京大学理学部情報科学科卒業。1995年同大学大学院理学系研究科情報科学専攻中退。同年同専攻助手。科学技術振興事業団さきがけ研究21研究員(兼任)、北陸先端科学技術大学院大学助教授を経て、 2008年より情報通信研究機構MASTARプロジェクト言語基盤グループ・グループリーダー。現在、同機構ユニバーサルコミュニケーション研究所情報分析研究室室長。自然言語処理の研究に従事。日本学術振興会賞など受賞。
お昼休み 11:50-13:00
SESSION.3 13:00-13:50
テキストマイニング:大規模テキストデータの価値を引き出す技術
【講演概要】ITの発達に伴い、膨大なテキストが電子化され容易にアクセス可能になっている。しかし、その活用方法は未だに検索ベースで特定のテキストに目を通す程度にとどまり、せっかくのデータを活かせていないケースが多い。量が少なければ全てに目を通すのに、量が多すぎると全く目を通さなくなるのがテキストデータの特徴である。テキストマイニングは、膨大なテキストデータを全体として捉えて有益な知見を得るための技術であり、うまく適用すれば非常に大きな成果に結びつくことが多い。本講演では、デモと事例を交えてテキストマイニングの本質及びその活用方法を紹介する。
講師:那須川 哲哉 (日本アイ・ビー・エム株式会社 東京基礎研究所 主席研究員)
【略歴】1989年日本アイ・ビー・エム株式会社に入社。東京基礎研究所に配属。以後、IBM T.J.ワトソン研究所での1年間の勤務、コンサルティング部門への1年半の出向などを経験しつつ、一貫して機械翻訳やテキストマイニング、評判分析、会話マイニングなど自然言語処理関係の研究に従事。平成24年度科学技術分野の文部科学大臣表彰をテキストマイニング技術の開発により受賞。著書に「テキストマイニングを使う技術/作る技術」。
SESSION.4 13:50-14:40
楽天のビッグデータと自然言語処理
【講演概要】約1億商品を取り扱い、年商1兆円をあげるショッピングサイトである楽天には、さまざまな種類のビッグデータが存在する。商品データはもとより、お客様の購入記録、閲覧ログ、検索ログ、レビューなど、その種類は数えあげられない。その量が故にプログラムによる自動的な処理が必須であり、その処理のひとつとして自然言語処理の技術を利用する課題が存在する。ビッグデータに対する処理の本質は、どのような目的のために、どのようにデータを整理し、その出力を次の段階の処理において人またはプログラムが有効に利用できる(より小さく理解のしやすい)状態にまとめられるかという点にある。その実現のためには、自然言語処理に限らない様々な問題が複雑に絡んでいるが、本講演では楽天の持つ言語に関連したビッグデータにおいて、楽天技術研究所で取り組んでいる自然言語処理に関連した課題の一部と、その解決策、将来への課題などを紹介する。
講師:関根 聡 (楽天株式会社 楽天技術研究所ニューヨーク 所長)
【略歴】1987年東京工業大学応用物理学科卒業。松下電器東京研究所入社。1992年英国UMIST大学計算言語学科MSc.。1998年ニューヨーク大学Ph.D.。同年より研究助教授。2007年より研究准教授。研究対象は自然言語処理。2000年には自然言語処理のコンサルタントと技術移転を目的としたランゲージ・クラフト研究所を設立。2010年から楽天技術研究所ニューヨーク所長を兼任。自然言語処理、特に情報抽出、知識獲得に興味を持つ。
SESSION.5 14:50-15:40
大規模・高速・高精度な自然言語処理を支える技術
【講演概要】近年、個人がSNSなどで情報を発信したり、様々な活動が言語によって表現され、これらの言語情報を解析することで世の中の動き、現象を把握することができるようになってきた。例えば、数万~数百万を超えるようなEntityを抽出・名寄せし、それらの関係を分析することができるようになっている。また、言語をまたがった個人・企業活動が進むにすれ、複数言語に対して自然言語処理を適用できることが重要となっており、自然言語処理は言語の種類数に対してもスケーラブルであることが要請されている。本講演では、こうした量、種類ともに増加する言語情報を扱うための手法をいくつか紹介するとともに、Jubatusなどの大規模言語処理を可能とする基盤について紹介する。
講師:岡野原 大輔 (株式会社Preferred Infrastructure 取締役副社長)
【略歴】2010年東京大学情報理工学系研究科コンピュータ科学専攻博士課程修了、情報理工学博士。2006年(株)Preferred Infrastructureを共同で創業。統計的自然言語処理、機械学習、大規模データ処理、簡潔データ構造、オンラインアルゴリズム、数値最適化、データ圧縮に興味を持つ。
SESSION.6 15:50-17:00
[パネル討論]今後の方向性
司   会:乾 健太郎 (東北大学 大学院 情報科学研究科 教授)
パネリスト:黒橋 禎夫 (京都大学 大学院 情報学研究科 教授)
鳥澤 健太郎 (独立行政法人 情報通信研究機構 ユニバーサルコミュニケーション研究所 情報分析研究室 室長)
那須川 哲哉 (日本アイ・ビー・エム株式会社 東京基礎研究所 主席研究員)
関根 聡 (楽天株式会社 楽天技術研究所ニューヨーク 所長)
岡野原 大輔 (株式会社Preferred Infrastructure 取締役副社長)