日時:3月6日(火)9:30-12:00
会場:第2イベント会場 (52・53号館 1F 5211)
【セッション概要】昨今ウェブの発展に伴い、ブログやミニブログ、SNS等のサービスを通じて、日々膨大な量のテキストベースの一次情報が生産されている。また、この中には、しばしば、口語表現、異表記・表記ゆれ、誤字脱字等々が含まれており、従来の教科書的な自然言語処理の枠に収まらない「リアルな」テキストデータに対する処理が実用上ますます重要性を増している。本企画では、上記のような、従来あまり議論されてこなかった実世界テキストを扱う上で自然言語処理技術者が直面する問題とは何か、またその問題に対してどのような解決策が講じられるかについて、講演およびパネル討論をおこないます。
司会:乾 孝司 (筑波大学 システム情報系情報工学域 助教) | |
【略歴】2004年奈良先端科学技術大学院大学情報科学研究科博士課程修了。日本学術振興会特別研究員、東京工業大学統合研究院特任助教等を経て、2009年筑波大学システム情報工学研究科コンピュータサイエンス専攻助教。2011年10月、組織名称変更により現職。博士(工学)。自然言語処理、特にCGMテキストに対する意見分析、評判分析に興味をもつ。 |
9:30-9:40 オープニング | |
乾 孝司 (筑波大学 システム情報系情報工学域 助教) |
|
【略歴】2004年奈良先端科学技術大学院大学情報科学研究科博士課程修了。日本学術振興会特別研究員、東京工業大学統合研究院特任助教等を経て、2009年筑波大学システム情報工学研究科コンピュータサイエンス専攻助教。2011年10月、組織名称変更により現職。博士(工学)。自然言語処理、特にCGMテキストを対する意見分析、評判分析に興味をもつ。 | |
9:40-9:55 講演-1 不自然言語処理全体 | |
萩原 正人 (楽天株式会社 楽天技術研究所 シニア・サイエンティスト) | |
【講演概要】ウェブの発展等にともない、くだけた表現や変則的な固有名詞など、「リアルな」言語表現に対する処理は実用上ますます重要性を増している。「不自然言語処理」、すなわちこれらの「リアルな」言語処理に関して、2010年夏に行われたバイドゥ株式会社主催の「不自然言語処理コンテスト」および2011年春の言語処理学会第17回年次大会におけるテーマセッションでは、「枠に収まらない言語表現の処理」や「Twitterと言語処理」に関する多数の論文・発表の応募があり、本テーマに対する関心の高さを伺わせる。本講演では、これら具体的な取り組み、および関連する研究動向を紹介する。 |
|
【略歴】2009年名古屋大学大学院情報科学研究科博士後期課程修了。同年よりバイドゥ株式会社において検索エンジンの研究開発に従事。現在シニア・サイエンティストとして楽天株式会社楽天技術研究所に所属。博士(情報科学)。自然言語処理、特に語彙知識獲得の研究に従事。言語処理学会第15回年次大会最優秀発表賞受賞。言語処理学会・情報処理学会各会員。 | |
9:55-10:10 講演-2 ANPI_NLP | |
村上 浩司 (楽天株式会社 楽天技術研究所 チーフ・サイエンテイスト) | |
【講演概要】3月の東日本大震災の直後からインターネット上の多くの情報媒体に被災者、被災地の情報が飛び交った。こうした情報を整理する目的で自然言語処理関係者によるプロジェクトANPINLPが立ち上がった。幾つかの活動のうち、Twitter上に流れた被災者の生存に関する情報を整理するために、生存情報の記載された文書の分類、文書内の被災者の地名と人名に焦点を当てた固有表現抽出についての取り組みについて紹介する。また経験から得られた教訓やデータの取り扱いに関して直面した難しさなどについて述べる。振り返り、災害時における自然言語処理技術のもつ社会貢献の可能性について述べる。またディスカッションでは、経験から得られた教訓や災害時における自然言語処理技術の利用の可能性について意見を述べる。 |
|
【略歴】2004年北海道大学大学院工学研究科博士課程単位取得大学。ニューヨーク大学コンピュータサイエンス学科、東京工業大学、奈良先端科学技術大学院大学を経て2010年より楽天株式会社楽天技術研究所に所属。博士(工学)。自然言語処理の研究に従事。 | |
10:10-10:20 講演-3 新しい語・崩れた表記 | |
鍜治 伸裕 (東京大学 生産技術研究所 特任助教) |
|
【講演概要】ブログやSNSに代表されるCGM上のテキストは、不特定多数の人間によって自由に記述されるという側面を持つ。そうしたテキストは、新聞記事のようにある程度規格化されたテキストと異なり、新しい語や崩れた表記が多く使われるなど、より現実の言語に即した多様性を有する。これに伴い、辞書などの言語資源の作り込みによって多様な言語表現を網羅することが困難となり、従来の解析アプローチに限界が見えつつある。本パネルでは、形態素解析における新しい語や崩れた表記の扱いを切り口として、こうしたより現実に近い言語データの解析に対する展望を議論する。 |
|
【略歴】2005年東京大学大学院情報理工学系研究科博士課程修了。情報理工学博士。現在、東京大学生産技術研究所特任助教。自然言語処理に関する研究に従事。 |
|
10:20-10:30 講演-4 新しい語・崩れた表記 | |
笹野 遼平 (東京工業大学 精密工学研究所 助教) |
|
【講演概要】講演-3 鍜治 伸裕 (東京大学 生産技術研究所 特任助教)と合同講演 |
|
【略歴】2009年東京大学大学院情報理工学系研究科博士課程修了。京都大学大学院情報学研究科特定研究員を経て、2010年12月より現職。博士(情報理工学)。自然言語処理、特に述語項構造解析、照応解析の研究に従事。 |
|
10:30-10:40 講演-5 テキスト世界は必ずしも現実世界を反映しない | |
荒牧 英治 (東京大学 知の構造化センター 特任講師) |
|
【講演概要】近年、Twitterを材料とした多くのweb応用アプリケーションが提案されています。多くのアプリケーションは、Twitterなどのテキスト世界が現実世界を反映していることを仮定しています。しかし、実際には、両者の間には乖離があります。例えば、インフルエンザに関するツイートを行なっている人間は、実際には、まだ、ツイートをする余裕がある人々で、実際に罹患している人間はツイートを行う余力がないのが現実です。本講演では、医療情報を題材に、テキストから情報抽出を行うことの本質的な難しさについて議論します。 |
|
【略歴】2005年東京大学大学院情報学研究科博士後期課程修了、博士(情報理工学)。自然言語処理(機械翻訳/翻字)、医療情報(電子カルテ文章からの情報抽出)の研究に従事。情報処理学会、言語処理学会、医療情報学会、ACL会員。 |
|
10:40-10:50 講演-6 SNSと文化財 | |
橋本 泰一 (東京工業大学 総合プロジェクト支援センター 特任准教授) |
|
【講演概要】文化財の管理は主に市町村などの公的機関が行うべきだが、文化財を管理する担当者は減少傾向にある。そのため、屋外の文化財の状態を管理することが困難な状態であり、震災などによる突発的な文化財の被害に迅速に対応する余裕はない。一方、TwitterやfacebookなどのSNSを通して個人から文化財の情報が発信されている。実際に、東日本大震災直後の被災文化財に関する情報がリアルタイムに発信され、文化財の復興への期待などが多数発信されていた。このような個人が発信する文化財情報をリアルタイムに情報収集し、文化財の状態管理に活用することで、管理の負担を減らす効果が期待できる。SNSから文化財管理に役立つ情報収集する上での自然言語処理技術の課題について述べる。 |
|
【略歴】1997年 東京工業大学工学部情報工学科卒業。2002年 同大学大学院情報理工学研究科計算工学専攻博士課程修了。同年 同大学同研究科 助手。2006年 同大学統合研究院 特任准教授。同大学総合プロジェクト支援センター 特任准教授。現在、自然言語処理、情報検索、テキストマイニングに関する研究に従事。情報処理学会、言語処理学会、人工知能学会各会員。博士(工学)。 |
|
10:50-11:00 講演-7 情報の流れからみるウェブのマッシブデータ | |
岡 瑞起 (東京大学 知の構造化センター 特任研究員) |
|
【講演概要】現在の科学はこれまでに出会ったことのない複雑で巨大で詳細なデータと向き合っている。これまでの理論や方法論での解析を拒絶するマッシブなデータに対し、新しい理論や基底としての知が求められている。最近、グーグルのクエリーやツイッターのキーワードの時間系列をもとに、いくつか面白いアプローチをウェブの新しい視点として展開している。ここでは、その中から特に、脳科学のアイディアである、エピソード記憶やデフォルトモードをもとに、技術的にはトランスファーエントロピーを用いて、ウェブの情報の流れを定量的に扱うことを行なっている。結果として、時系列のゆらぎの情報をもとに、グーグルからツイッターへの情報の流れ、あるいはその逆がどういうクエリー・キーワードに対して見られるかが見えてきている。講演ではこれらの結果について報告し、ウェブのもつ複雑さについて議論したい。 |
|
【略歴】1980年生。筑波大学大学院システム情報工学研究科修了。博士(工学)。2008年より東京大学・知の構造化センター・特任研究員。専門はウェブ工学とHCI。2009年度下期IPA未踏クリエーター。オーマ株式会社技術顧問。 |
|
11:00-11:10 講演-8 twitter からの震災情報 | |
榊 剛史 (東京大学 工学系研究科技術経営戦略学専攻 博士課程学生) |
|
【講演概要】2011年3月に発生した東日本大地震では、情報共有・情報収集ツールとしてTwitterが有効活用された。これは、情報処理技術、特に言語処理やネットワーク分析の手法が、直接的に災害支援に役に立つ可能性を示した一つの事例であると考えられる。 実際には、安否確認や避難所情報、不足している災害支援物資等についての情報が流通したと言われている。同時にデマや間違った科学知識等、誤った情報の拡散を助長したとも言われてる。しかし、いずれも厳密な検証は行われていない。本講演では、震災直前~2週間後までの日本全体のtweetを分析し、災害支援ツールとしてTwitterの持つ有用性及び危険性について検証する。 |
|
【略歴】2004年東京大学情報理工学系研究科修士課程修了。2006年東京電力入社、2009年同退社。 2009年より現職である東京大学工学系研究科博士課程に入学。 同時に株式会社ホットリンクでの主任研究員に従事。 Webマイニング、人工知能、言語処理の研究に興味を持つ。博士課程では特にTwitterを用いたリアルタイム情報抽出を中心に研究を行なっている。人工知能学会会員。 |
|
11:10-11:20 講演-9 世の中を捉えるための言語処理技術 | |
岡野原 大輔 (株式会社Preferred Infrastructure フェロー) |
|
【講演概要】近年、様々な言語情報が電子化されるとともに、個人がSNSなどで情報を発信することで、言語情報を介して世の中の動き、現象を捉えることが可能となっている 。例えばまだ公式発表されていないニュースや、商品や事件に対する人々の評判分析、著者推定(書いている人が何者であり、どういったものに興味を持っているのか)といった推定もできるようになってきた 。 本講演では、世の中を捉えるためにどのような言語処理が必要なのかを解説するとともに、今後の可能性について述べる 。 |
|
【略歴】2010年東京大学情報理工学系研究科コンピュータ科学専攻博士課程修了。2006年株式会社プリファードインフラストラクチャーを共同で創業。博士(情報理工学)。自然言語処理、機械学習、データ構造に興味を持ち、特に大規模データを用いたデータ解析に興味を持つ。 |
|
11:20-12:00 パネル討論 | |
司会: 乾 孝司 (筑波大学 システム情報系情報工学域 助教) | |
【略歴】2004年奈良先端科学技術大学院大学情報科学研究科博士課程修了。日本学術振興会特別研究員、東京工業大学統合研究院特任助教等を経て、2009年筑波大学システム情報工学研究科コンピュータサイエンス専攻助教。2011年10月、組織名称変更により現職。博士(工学)。自然言語処理、特にCGMテキストに対する意見分析、評判分析に興味をもつ。 | |
パネリスト:萩原 正人 (楽天株式会社 楽天技術研究所 シニア・サイエンティスト) | |
【略歴】2009年名古屋大学大学院情報科学研究科博士後期課程修了。同年よりバイドゥ株式会社において検索エンジンの研究開発に従事。現在シニア・サイエンティストとして楽天株式会社楽天技術研究所に所属。博士(情報科学)。自然言語処理、特に語彙知識獲得の研究に従事。言語処理学会第15回年次大会最優秀発表賞受賞。言語処理学会・情報処理学会各会員。 | |
パネリスト:村上 浩司 (楽天株式会社 楽天技術研究所 チーフ・サイエンテイスト) | |
【略歴】2004年北海道大学大学院工学研究科博士課程単位取得大学。ニューヨーク大学コンピュータサイエンス学科、東京工業大学、奈良先端科学技術大学院大学を経て2010年より楽天株式会社楽天技術研究所に所属。博士(工学)。自然言語処理の研究に従事。 | |
パネリスト:鍜治 伸裕 (東京大学 生産技術研究所 特任助教) | |
【略歴】2005年東京大学大学院情報理工学系研究科博士課程修了。情報理工学博士。現在、東京大学生産技術研究所特任助教。自然言語処理に関する研究に従事。 |
|
パネリスト:笹野 遼平 (東京工業大学 精密工学研究所 助教) | |
【略歴】2009年東京大学大学院情報理工学系研究科博士課程修了。京都大学大学院情報学研究科特定研究員を経て、2010年12月より現職。博士(情報理工学)。自然言語処理、特に述語項構造解析、照応解析の研究に従事。 |
|
パネリスト:荒牧 英治 (東京大学 知の構造化センター 特任講師) | |
【略歴】2005年東京大学大学院情報学研究科博士後期課程修了、博士(情報理工学)。自然言語処理(機械翻訳/翻字)、医療情報(電子カルテ文章からの情報抽出)の研究に従事。情報処理学会、言語処理学会、医療情報学会、ACL会員。 |
|
パネリスト:橋本 泰一 (東京工業大学 総合プロジェクト支援センター 特任准教授) | |
【略歴】1997年 東京工業大学工学部情報工学科卒業。2002年 同大学大学院情報理工学研究科計算工学専攻博士課程修了。同年 同大学同研究科 助手。2006年 同大学統合研究院 特任准教授。同大学総合プロジェクト支援センター 特任准教授。現在、自然言語処理、情報検索、テキストマイニングに関する研究に従事。情報処理学会、言語処理学会、人工知能学会各会員。博士(工学)。 |
|
パネリスト:岡 瑞起 (東京大学 知の構造化センター 特任研究員) | |
【略歴】1980年生。筑波大学大学院システム情報工学研究科修了。博士(工学)。2008年より東京大学・知の構造化センター・特任研究員。専門はウェブ工学とHCI。2009年度下期IPA未踏クリエーター。オーマ株式会社技術顧問。 |
|
パネリスト:榊 剛史 (東京大学 工学系研究科技術経営戦略学専攻 博士課程学生) | |
【略歴】2004年東京大学情報理工学系研究科修士課程修了。2006年東京電力入社、2009年同退社。 2009年より現職である東京大学工学系研究科博士課程に入学。 同時に株式会社ホットリンクでの主任研究員に従事。 Webマイニング、人工知能、言語処理の研究に興味を持つ。博士課程では特にTwitterを用いたリアルタイム情報抽出を中心に研究を行なっている。人工知能学会会員。 |
|
パネリスト:岡野原 大輔 (株式会社Preferred Infrastructure フェロー) | |
【略歴】2010年東京大学情報理工学系研究科コンピュータ科学専攻博士課程修了。2006年株式会社プリファードインフラストラクチャーを共同で創業。博士(情報理工学)。自然言語処理、機械学習、データ構造に興味を持ち、特に大規模データを用いたデータ解析に興味を持つ。 |
|