第1回「ビッグデータの解析と価値発見」｜情報処理学会連続セミナー2012 「ビッグデータとスマートな社会」

本セミナー初回となる「ビッグデータの解析と価値発見」では、様々なビジネスへの活用が望まれているビッグデータに関して、その解析手法と、実利用の最前線について解説します。まず、ビッグデータ解析の基礎となる「頻出パターン抽出」を含めた最新技術の紹介、そして、センサデータ等の時々刻々と得られるデータをリアルタイムに解析する場合に必要不可欠となる「ストリームマイニング技術」について解説します。その後、日本電気株式会社及び楽天株式会社における取り組みについて解説します。最後は、ビッグデータの解析を簡単にする新しい試みとしてシェルスクリプトを用いた高速処理について解説し、ビッグデータの解析が身近なコンピュータでも可能であることを示します。

コーディネータ：山名　早人（早稲田大学理工学術院教授）

【略歴】1993年早稲田大学大学院理工学研究科博士後期課程了。博士(工学)。1993年～2000年通産省工業技術院電子技術総合研究所。1996年～1997年通産省機械情報産業局電子機器課・課付。2000年早稲田大学理工学部助教授。2005年4月国立情報学研究所客員教授、2005年早稲田大学理工学術院教授。データベース学会論文賞(2009年)。IBM Faculty Award（2009年)。情報処理学会、電子情報通信学会、IEEE、ACM、AAAI各会員。情報検索、Webマイニング、並列・分散処理等の研究に従事し、140億を超えるWebページを収集・解析。

SESSION.１　10:00-11:10
ビッグデータ高速処理に向けた計算理論的アプローチ

【講演概要】近年のBig dataブームでは、その解析や利用にともなう計算コストの高さが問題視されている。アルゴリズム改良はインフラに対する投資が不要な上、場合によっては非常に大きな改善が見込まれるため、重要性が高い。本講演では、このような計算理論から大規模データ処理の問題解決に対してアプローチするための、基礎的な考え方についてレクチャーする理論を身につけることは困難であるが、理論からアプローチできる領域や、理論によるアプローチの方向性を知り、具体的にどのようなことがどの程度のコストで的そうかを見積もることならば、その感覚をつかむことは難しくない。本講演では、具体的な事例を交え、基礎的な物の見方を学ぶことを目標とする。

講師：宇野　毅明（国立情報学研究所情報学プリンシプル研究系准教授）

【略歴】1998年3月東京工業大学総合理工学研究科博士課程終了、博士(理学)を取得。1998年4月東京工業大学経営工学専攻助手着任、2001年2月国立情報学研究所助教授着任。2005年5月より2006年8月までスイス連邦工科大学に滞在。現在、情報学プリンシプル研究系准教授。日本オペレーションズリサーチ学会、情報処理学会、電子情報通信学会に所属。専門はアルゴリズムの理論と応用、特に離散アルゴリズム、列挙アルゴリズム、計算量理論、組合せ最適化など。データマイニング・データ解析・ゲノム情報学では、クラスタリングや類似性などの基礎計算を大規模データで高速に行う手法を研究。2010年文部科学大臣表彰科学技術部門若手科学者賞受賞。

SESSION.２　11:20-12:30
データストリームのためのマイニング技術とその応用

【講演概要】近年、センサの小型化や低価格化によって大規模なセンサネットワークがさまざまなところで構築されている。それら大量のセンサノードから送られてくる時系列データ、すなわちデータストリームを高速に分析するストリームマイニング技術は非常に重要
になっている。ストリームマイニングは探索、トレンド検出、予測などさまざまな技術があるが、本講演ではそれらの中から代表的な技術を紹介する。さらにストリームマイニング技術の応用例として、具体的な事例をいくつか紹介する。

講師：櫻井　保志（ＮＴＴコミュニケーション科学基礎研究所主任研究員）

【略歴】1991年同志社大学工学部電気工学科卒業。1991年日本電信電話（株）入社。1999年奈良先端科学技術大学院大学情報科学研究科博士後期課程修了。博士（工学）。情報処理学会平成18年度長尾真記念特別賞、平成16年度
および平成19年度論文賞、電子情報通信学会平成19年度論文賞、ACM KDD best paper awards (2008年、2010年) など受賞。センサーデータ処理、Web情報解析の研究に従事。

お昼休み　12:30-13:30

SESSION.３　13:30-14:40
データからの価値発見への挑戦

【講演概要】本講演では、機械学習に基づいたデータマイニングによるデータからの価値発見への挑戦について、アプリケーション、および機械学習技術の両面から紹介したい。まず、最初に、機械学習ベースのデータマイニングに関するごく簡単な説明を行ったうえで、アプリケーション面として、人／機器（システム）／インターネットそれぞれのデータからの価値発見の例と、今後のさらなる高度化への挑戦の方向についての考えを述べる。また、機械学習技術面としては、実際に価値発見する際に困難を伴うことが多い、マルチモーダルデータ（データ源が複数の状態／動作モードを持ち、モード毎に異なる分布のデータが混在してしまっているセット）からの効率よいパターン発見への挑戦として、最近進んでいる異種混合モデル選択の研究について紹介する。これらをあわせて、データからの価値発見の発展の可能性を感じ取っていただければ幸いである。

講師：森永　聡（日本電気株式会社情報・ナレッジ研究所主任研究員）

【略歴】1994年東大大学院工学系研究科修士了。同年NEC入社、中央研究所に勤務。1999年論文提出により博士号（工学）取得。2000～2001年金融監督庁に出向、2005～2008年金融庁兼務し銀行のリスク規制制度の設計と実施を担当。NECでは機械学習・データマイニングの研究に従事。データ分析原理の理論的研究から、当該原理に基づき効率よく分析を行うエンジンの開発、そのビジネス応用までを担当している。

SESSION.４　14:50-16:00
E-Commerce企業におけるBigData活用事例とビジョン

【講演概要】BigDataが、インターネット企業においてどのような現実的課題として登場し、またその活用をしているのか。講演者が所属する楽天だけでなく、他社事例も含めながら、e-commerce サービスカンパニーにおけるBigData活用の実際について詳細を解説する。特にe-commerce 企業におけるデータマイニング、商品ランキング、商品サーチ、広告配信などのビジネス課題に関して言及しながら、Hadoopや他の独自OSS技術の活用についても事例を説明する。更には、今後、将来において本格化するO2Oのトレンドがどのような影響をもたらし、BigDataがいかに進行するか、それを踏まえインターネットサービス企業における技術活用として何を行わなければいけないかについても考察をしていく。

講師：森　正弥（楽天株式会社執行役員・楽天技術研究所所長）

【略歴】1998年アクセンチュア株式会社入社。2006年楽天株式会社入社。現在、同社執行役員兼楽天技術研究所長としてマネジメントに従事。情報処理学会、電子情報通信学会各会員。Rubyアソシエーション評議員。 IPA Ruby標準化WG委員。経済産業省次世代高度IT人材モデルキャリア検討委員。経済産業省CIO育成委員会委員。著作に「クラウド大全」（日経BP社、共著）、「ウェブ大変化パワーシフトの始まり」（近代セールス社）がある。　

SESSION.５　16:10-17:20
シェルスクリプトで驚きの高速ビックデータ処理

【講演概要】シェルスクリプトというと、OSの起動スクリプトや、企業システムの運用に使われる程度の古い技術と思われるかもしれません。しかし、シェルスクリプトは最薄のマンマシンインターフェースソフトであり、その使い方やコマンドを工夫することにより、サーバーのパフォーマンスを最大限に引き出すことができます。シェルスクリプトは枯れたベーシックな技術であり、その簡易性、移植性、柔軟性の高さから、大手企業の情報システム内製化技術として広がりを見せつつあります。本講演ではユニバーサル・シェル・プログラミング研究所の代表が、採用企業の事例や、シェルスクリプト技術の紹介を行います。また、BIGDATA処理をシェルスクリプトを使って実演を行います。

講師：當仲　寛哲（有限会社ユニバーサル・シェル・プログラミング研究所代表取締役所長）

【略歴】1990年東京大学工学部機械工学科卒業。東京大学大学院修士課程（情報工学専攻）中退。株式会社ダイエー入社システム改善により社長賞受賞。2000年IPA助成事業実施主幹。2004年株式会社ダイエー依願退職し、USP研究所を創立。ユニケージ開発手法が、IPAの「ソフトウェア・プロダクト・オブ・ザ・イヤー2008基盤ソフトウェア部門」を受賞。