イベント企画
データ研磨によるビッグデータからの高精度クラスタ発見とその応用
9月12日(火) 9:30-12:00
第3イベント会場(2号館241号講義室)
【セッション概要】 データ研磨は、データに含まれる構造を明確化することによりマイニングの精度をあげる技術で、教師なしクラスタリングなどで高い精度のアルゴリズムを構築可能とする。明確化された構造はよけいなものを含まずかつ微細すぎないため、構造の意味をとらえやすい。特にクラスタリングでは、既存手法での解決が非常に難しい、大量のデータから多数のクラスタを見つけ出すタスクに相性がよく、また内在する特徴も際立つため、機械学習の特徴量クラスタリング、行動ログ分析、金融データ解析、バイオデータ分析などで、大きな効果を上げている。本企画では、データ研磨の基礎的な考え方と、腸内細菌分析、婚活データによる推薦、インターネット広告、株価予測、顧客分析など、応用分野での事例を紹介する。
司会:宇野 毅明(国立情報学研究所 情報学プリンシプル研究系 研究主幹)
【略歴】 1998年3月東京工業大学総合理工学研究科博士課程終了、博士(理学)を取得。1998年4月東京工業大学経営工学専攻助手着任、2001年2月国立情報学研究所助教授着任。2014年4月同教授着任。2005年5月より2006年8月までスイス連邦工科大学に滞在。現在、情報学プリンシプル研究系教授。日本オペレーションズリサーチ学会、情報処理学会、電子情報通信学会に所属。専門はアルゴリズムの理論と応用、特に離散アルゴリズム、列挙アルゴリズム、計算量理論、組合せ最適化など。データマイニング・データ解析・ゲノム情報学では、クラスタリングや類似性などの基礎計算を大規模データで高速に行う手法を研究。2010年文部科学大臣表彰 科学技術部門 若手科学者賞受賞。
9:30-10:40 講演(1) データ研磨によるクラスタマイニングの高精度化とその応用
宇野 毅明(国立情報学研究所 情報学プリンシプル研究系 研究主幹)
【概要】 データマイニングは、データが内包する意味や特徴に対応する局所的な構造を網羅的に見つけ出し、データの多様性を獲得する手法である。機械学習などの全体的・演繹的に法則を見いだすアプローチとは異なり、局所的・データ機能的に発見的に知見を獲得することを目的とする。ビッグデータ時代の到来とともに、データマイニングの重要性は増してきているが、本来見つけたい意味にどのような構造が対応するのか、数理的に定義することが困難であるため、難問とされてきている。パターンマイニングは数十億にのぼる類似した、本質的な意味が同質である解を出力するし、クラスタリングやセグメンテーションは、多様なデータでは、粒度が大きくゆがんだ精度の低い解を出してしまう。我々の開発したデータ研磨は、このようなデータの中にある構造を、本来それらが持つ性質を保つよう、明確化し、解の発見を容易にする技術である。今までにない速度と精度を持つ革新的な技術であり、様々な種類の巨大なデータに適用可能である。すでに婚活データ、インターネット広告、新聞記事、購買データ、腸内細菌などのデータに適用し、いくつもの企業で利用されるとともに、様々な知見を生み出している。
【略歴】 1998年3月東京工業大学総合理工学研究科博士課程終了、博士(理学)を取得。1998年4月東京工業大学経営工学専攻助手着任、2001年2月国立情報学研究所助教授着任。2014年4月同教授着任。2005年5月より2006年8月までスイス連邦工科大学に滞在。現在、情報学プリンシプル研究系教授。日本オペレーションズリサーチ学会、情報処理学会、電子情報通信学会に所属。専門はアルゴリズムの理論と応用、特に離散アルゴリズム、列挙アルゴリズム、計算量理論、組合せ最適化など。データマイニング・データ解析・ゲノム情報学では、クラスタリングや類似性などの基礎計算を大規模データで高速に行う手法を研究。2010年文部科学大臣表彰 科学技術部門 若手科学者賞受賞。
10:40-11:20 講演(2) データ研磨手法の金融応用
羽室 行信(関西学院大学 経営戦略研究科 准教授)
【概要】 本講演では、株価予測にデータ研磨の一つであるグラフ研磨手法を応用する分析法について紹介する。一般的に多くの投資家はリスク回避のために異なる銘柄を複数保有することでポートフォリオを組むが、そのような投資行動の相互作用によって市場全体の株価の騰落が決まってくる。そのため、市場全体が大きく動く時には、個別銘柄間の関係性推移にある特定のパターンが潜んでおり、そのパターンを検知することで市場全体の方向性の予測が期待できる。そこで、銘柄間の関係性を短期の株価連動の類似性でグラフ構造として定義し、そこからグラフ特徴量を抽出することで市場の騰落モデルを構築する。そして、個別銘柄の類似度グラフにグラフ研磨手法を適用することで、より明確なパターン抽出が期待できる。以上の考え方を背景に、本講演では、株価大崩落のシグナル解析、推薦システム手法を用いた個別株の騰落予測といった金融応用について紹介する。
【略歴】 1994年、神戸商科大学大学院経営学研究科博士後期課程単位取得退学。現在、関西学院大学経営戦略研究科准教授。データマイニングのビジネス応用を中心に企業における情報システムの研究に従事。データマイニングソフトNYSOLの開発責任者。2005, 2008, 2015年に日本OR学会事例研究賞を受賞。2012年より(株)NYSOL代表取締役。2016年より(株)Magne-Max Capital Management顧問。
11:20-12:00 講演(3) データ研磨を用いた消費者購買行動の解明
中原 孝信(専修大学 商学部 准教授)
【概要】 データ研磨はグラフを対象にしたクリーニング方法の1つであり、グラフ構造を明確化することで、列挙されるクリーク数を大幅に減らすことができる。本研究では、スキャンパネルデータと呼ばれる店舗横断的なデータを利用して、顧客の購買行動に関する特徴をグラフ研磨とクリーク列挙により抽出し、分類モデルを構築する。スキャンパネルデータを利用することで他店の購買行動を捉えることが可能であり、またグラフ研磨を適用することで、顧客の持つ店舗や商品を選択する際に想起する要因を捉えることが可能となる。またグラフ研磨を適用することでモデルの分類精度が向上することを示し、意味解釈の妥当性も検討する。
【略歴】 2009年大阪府立大学経済学研究科博士後期過程終了。博士(経済学)。関西大学商学部助教、株式会社 Magne-Max Capital Management 取締役などを経て、2014年専修大学商学部講師、現在、専修大学商学部准教授。ビジネス分野におけるデータマイニングの実践に関する研究に従事。オペレーションズ・リサーチ学会 事例研究賞(2015年)、データ解析コンペティション他、受賞多数。