第5回「ビッグデータに立ち向かう機械学習」｜情報処理学会連続セミナー2012 「ビッグデータとスマートな社会」

第5回「ビッグデータに立ち向かう機械学習」では、ビッグデータを有効に使いこなす技術の一つとして注目されている「機械学習」について、その研究分野をリードする研究者の方々に最先端の技術動向を紹介いただく。まず、コーディネータの松井知子が「機械学習」の研究分野をホットに俯瞰する。続いて、4名の第一線の研究者の方々に、バイオサイエンスからマーケティグまで幅広い応用を持つ「機械学習」の核心となるアイディアとその可能性について、実例を織り交ぜながら説明いただく。

コーディネータ：松井　知子（大学共同利用機関法人情報・システム研究機構統計数理研究所モデリング研究系研究主幹・教授）

【略歴】1988年東京工業大学大学院修士課程了。同年NTT（株）入社。話者・音声認識の研究に従事。1998年よりATR音声翻訳通信研究所、2000年よりATR音声言語通信研究所及び音声言語コミュニケーション研究所に出向。2001年1月～6月米ルーセント・テクノロジー社ベル研究所客員研究員。2003年より情報・システム研究機構統計数理研究所准教授。2008年より同研究所教授。統計数理の研究に従事。東工大博士（工学）。IEEE、日本音響学会、日本統計学会各会員。1993年電子情報通信学会論文賞受賞。

SESSION.１　10:00-10:30
ビッグデータと機械学習

【講演概要】近年、ITの発展・普及に伴い、大量かつ多様なビッグデータが利用できるようになりつつある。それをいかに使いこなして、イノベーションや生産性向上に結びつけるかが重要な課題となっている。一方、機械学習は経験やデータに基づいて自動的に学習を行うシステムに関する研究分野であり、その基盤はデータからの推論を対象とする統計科学と、アルゴリズムを対象とする計算機科学からなっている。今、機械学習はビッグデータを使いこなすための基盤技術として、ロボティクス・情報処理などの工学から脳科学などの自然科学に至る広範囲な応用分野で注目されている。本講演では、この機械学習について最先端の技術動向を概説する。

講師：松井　知子（大学共同利用機関法人情報・システム研究機構統計数理研究所モデリング研究系研究主幹・教授）

【略歴】1988年東京工業大学大学院修士課程了。同年NTT（株）入社。話者・音声認識の研究に従事。1998年よりATR音声翻訳通信研究所、2000年よりATR音声言語通信研究所及び音声言語コミュニケーション研究所に出向。2001年1月～6月米ルーセント・テクノロジー社ベル研究所客員研究員。2003年より情報・システム研究機構統計数理研究所准教授。2008年より同研究所教授。統計数理の研究に従事。東工大博士（工学）。IEEE、日本音響学会、日本統計学会各会員。1993年電子情報通信学会論文賞受賞。

SESSION.２　10:40-11:50
ビッグデータ時代のバイオサイエンスと機械学習

【講演概要】膨大かつ多様な生命情報の蓄積は、ゲノム解析や創薬開発プロセスにおける化合物データ解析など、バイオサイエンスの研究開発の在り方に大きな変化をもたらしている。昨今の超高速シークエンサの普及により、ペタバイト級のDNA塩基配列の情報が世界中の研究拠点で驚異的なスピードで蓄積され、ビッグデータ・ソリューションとしての機械学習に対する期待は益々高まっている。また創薬では、数百万件の化合物アッセイデータから候補化合物の毒性や薬理活性を予測する、さらにはde novo分子設計による合成展開の効率化など、様々な局面において機械学習のデータ解析技術は威力を発揮する。本講演では、ビッグデータ時代のバイオサイエンスにおけるわれわれの取り組みとして、 (1)ベイジアン・モデリングにもとづく代謝システムの工学設計とロバスト制御、(2)カーネル機械学習とマルコフ連鎖モンテカルロ法による化合物の分子設計の研究事例を紹介する。ベイズ統計学による逆問題解法や計算アルゴリズムについて講義するとともに、より俯瞰的な視点からバイオサイエンス分野におけるビッグデータ解析の可能性について議論したい。

講師：吉田　亮（大学共同利用機関法人情報・システム研究機構統計数理研究所
　　　　　　　　モデリング研究系データ同化研究開発センター（兼任）准教授）

【略歴】博士（統計科学）。2004年総合研究大学院大学博士後期課程修了、東京大学医科学研究所ヒトゲノム解析センター特任助教、情報・システム研究機構・統計数理研究所助教を経て、2011年から同准教授。日本統計学会、日本バイオインフォマティクス学会会員。専門はバイオインフォマティクス、システムズバイオロジー。近年は、癌のオミックス研究や創薬情報学の分野で、ベイズ統計学を活用したユニークな研究を行っている。

お昼休み　11:50-13:10

SESSION.３　13:10-14:20
ネットワーク分析のための機械学習～標準タスクと基本モデル～

【講演概要】ビッグデータの解析において重要とされる課題の一つが多彩なデータ形式への対応であるが、ネットワーク構造をもったデータはその中でも非常に一般的かつ頻出するデータ形式といえる。ネットワーク構造をもったデータはWebやバイオ、創薬、そしてビジネス分析やマーケティングまで、実世界の多くの重要な場面において自然に表れるが、従来のデータ解析手法は主に個々のデータを対象としたものであり、ネットワーク構造が表すデータ間の「関係」を直接的に取り扱えるものは少なかった。近年、ネットワーク構造をもったデータの増加とその解析の需要の高まりとともに、機械学習やデータマイニングのコミュニティにおいてもその重要性が認識さ
れ、新たなデータ解析手法の研究や応用が精力的に進められている。本講演では、ネットワーク構造を有するデータを扱うための基本的な考え方やモデルを解説するとともに、これらの最近の発展についても紹介する。

講師：鹿島　久嗣（東京大学大学院情報理工学系研究科数理情報学専攻准教授）

【略歴】1999年京都大学大学院工学研究科応用システム修士課程修了。2007年京都大学大学院情報学研究科知能情報博士課程修了。1999年から2009年までIBM 東京基礎研究所勤務。2009年より東京大学大学院情報理工学系研究科数理情報学専攻准教授。機械学習、データマイニングの研究に従事。博士（情報学）。

SESSION.４　14:30-15:40
大量データの類似度検索技術

【講演概要】近年、Big Data時代といわれるように、インターネット経由で得られる情報の量は急激に増加しており、膨大な数のデータサンプルをどのように利用するかが重要な研究課題となっている。類似度検索を高速化するのに大事なポイントは、データサンプルを離散化して圧縮し、それらを全てクラスタマシンの分散メモリ上に載せてしまい、ディスクアクセスを極力避けることである(In-Memory Data Grid)。本講演では、Locality Sensitive Hashingという離散化テクニックを用いたSketchSortという全ペア類似度検索の手法と、簡潔データ構造の一種であるWavelet Treeを用いたBag-of-wordsデータの高速な検索法について述べる。両手法とも、離散化と、その効率的な索引化が高速化のキーとなっている。画像データ、タンパク質の３次元構造データ、次世代シークエンサーデータなどの実データでの応用についても述べる。

講師：津田　宏治（独立行政法人産業技術総合研究所生命情報工学研究センター主任研究員）

【略歴】1994年京都大学工学部情報工学科卒業。1996年同大学院工学研究科情報工学専攻修士課程修了。1998年同博士課程修了、電子技術総合研究所入所。2000年独GMD FIRST客員研究員。2003-2004独Max Planck研究所研究員。2006-2008同チームリーダー。博士（工学）。現在、産業技術総合研究所生命情報工学研究センター機械学習研究班長、主任研究員。JST-ERATO湊離散構造処理系プロジェクトサブリーダー兼任。

SESSION.５　15:50-17:00
大規模データ分析基盤Jubatusによるリアルタイム機械学習とその活用

【講演概要】ビッグデータ活用がWebのみならず、様々な分野に広がっている。その中では非構造データに対する単なる集計、参照のみならず、予測・発見・分類などの分析を即時に行うことが求められるようになってきている。Jubatusはこの「並列分散」、「リアルタイム処理」、「深い分析」の３つの目標を同時に達成するために作られたフレームワークである。Jubatusでは独自に開発したモデル情報の緩やかな共有を技術の核とし、これまで困難とされてきたこれらの３つの目標を同時に達成することを可能とし、分類、回帰、近傍探索、統計など様々な深い分析を実現している。本講演では、Jubatusの背景、開発設計思想、内部技術の解説を行うと共に、各分野でJubatusがどのように利用されているかについて解説する。

講師：岡野原　大輔（株式会社Preferred Infrastructure 取締役副社長）
	【略歴】2010年東京大学情報理工学系研究科コンピュータ科学専攻博士課程修了、情報理工学博士。2006年（株）Preferred Infrastructureを共同で創業。統計的自然言語処理、機械学習、大規模データ処理、簡潔データ構造、オンラインアルゴリズム、数値最適化、データ圧縮に興味を持つ。