======================================================================
プログラム (発表件数 11件)
9月12日 (木) 11:00〜16:45
[11:00 - 12:00] アノテーション (2件)
[13:30 - 15:00] 知識表現・含意関係認識 (3件)
[15:15 - 16:45] 分析・応用 (3件)
9月13日 (金) 9:30〜12:30
[ 9:30 - 11:00] 形態素・学習 (3件)
[11:15 - 12:30] 招待講演 (西川仁氏)
======================================================================
9月12日 (木) 11:00〜16:45
・11:00 - 12:00 アノテーション (2件)
(1) アノテーション時の作業者の振舞いの収集とその分析
○飯田 龍, 光田 航, 徳永 健伸 (東工大)
テキストアノテーション時の作業者の振舞いは作業者が文章を理解するため
の認知的な処理を反映していると考えられるため,この振舞いを分析するこ
とで深い理解が必要となる言語処理に役立つ情報を明らかにできる可能性が
ある.そこで本研究では,この分析の一例として,日本語の述語項構造アノ
テーション時の作業者の振舞いを収集したデータをいくつかの観点から分析
する.この結果,人間のアノテーションの振舞いを分析することで得られる
知見が機械学習に基づく手法で用いる素性を検討する際に役立つことを示す.
(2) 視線情報を利用した欠損アノテーションの検出
○光田 航, 飯田 龍, 徳永 健伸 (東工大)
本稿では,複数人が行った述語項構造アノテーション作業の不一致を検出す
る問題について議論する.特に,文章中のある述語-項関係に対して二人の作
業者のうち一方の作業者がアノテーションしないというアノテーションの不
一致(アノテーション欠損)を検出する問題を考える.アノテーション欠損
を検出するために,言語的な情報に加えて,アノテーション作業者の視線情
報を利用する.具体的には,アノテーション対象となる述語に関して収集し
た注視の系列から高頻度の視線のパタンを抽出し,それをアノテーション欠
損を検出するための素性として利用する.これまでに収集した視線情報を含
むアノテーション結果を用いて評価実験を行い,各素性の有効性を調査した.
この結果,視線情報と言語的情報がともにアノテーション欠損検出に有効で
あり,また,特定の視線パタンが欠損検出の良い指標になることについて報
告する.
・13:30 - 15:00 知識表現・含意関係認識 (3件)
(3) 生成語彙論における共構成のモデル化と意味の合成性を内在する単語ベクトルの教師なし学習
○椿 真史, Kevin Duh, 新保 仁, 松本 裕治 (NAIST)
我々はまず、生成語彙論における共構成を、単語ベクトル空間内における行
列演算としてモデル化する手法を提案する。共構成とは、述語と項の相互の
影響が各々の単語の意味を変化させる演算のことである。このモデルにより
我々は、単語とその意味を表現するベクトルが一意に対応する従来のベクト
ル空間においても、多義語の意味を十分に捉えることが可能であることを示
す。さらにこのモデルを用い、二つの単語の合成性(Compositionality)を
内在させた単語ベクトルを教師なしで学習する手法を提案する。これらの手
法を動詞の語義曖昧性解消タスクを用いて評価し、これまでの既存研究と比
較して高い相関係数が得られることを示した。
(4) 大域的情報を使った文章中の動詞の予測
○Joseph Irwin, 松本 裕治 (NAIST)
教師なしで学習可能なnarrative schemaという知識表現は情報抽出や共参照
解析など複数のタスクにおいて有効であることが証明されている.その学習
手法を改善する研究も少ないながら存在するが,基準となる評価手法がまだ
提案されていない.本発表ではnarrative schemaのような知識表現の
intrinsicな評価手法を提案する.文書の中のイベントについての談話レベル
の知識の表現の開発の最初の取り組みとして単純なベクター空間モデルを考
案し,これを上記の評価手法で評価する.
(5) 11: Learning approaches for recognizing textual entailment and finding contradiction in texts
○Minh Le Nguyen (JAIST), Minh Quang Pham (NICT), Akira Shimazu (JAIST)
Recognizing Textual Entailment (RTE) and finding contradiction in
texts are fundamental tasks in Natural Language Understanding. We
conduct an empirical study of recognizing textual entailment in
Japanese texts, in which we adopt a machine learning-based approach
to the task. Experimental results achieved on benchmark data sets
show that our machine learning-based RTE system outperforms the
baseline methods based on lexical matching and syntactic
matching. The second part of this paper focuses on introducing the
task of finding contradiction text. In contrast to previous work, we
combine shallow semantic representations derived from semantic role
labeling with binary relations extracted from sentences in a
rule-based framework. Experimental results on the benchmark data set
showed that our framework is very promising.
15:15 - 16:45 分析・応用 (3件)
(6) テキストの難易度と語の分布
○佐藤 理史 (名古屋大)
現代日本語書き言葉均衡コーパスの書籍レジスタの固定長サンプルに対して
実施した、テキストの難易度と語の分布に関する一連の調査の結果について
報告する。
(7) Web掲示板における皮肉の分類および自動検出
○磯野 史弥, 松吉 俊, 福本 文代 (山梨大)
本研究では,Web掲示板に存在する皮肉や誹謗中傷などの不適切な表現を自動
的に検出する手法を提案する.我々は,Web掲示板における皮肉を人手で体系
的に分類した.そして,この分類体系に基づき,前後文の評価極性を考慮す
るパターンを用いて皮肉文を検出するシステムを構築した.
(8) Random Forestを用いた類似レビュアーの推薦手法の検討
○徳田 祐貴, 梅澤 猛, 大澤 範高 (千葉大)
Web上の商品レビューは、多様な好みや感覚を持ったレビュアーによって書か
れている。そのため、ユーザーは多くのレビューに目を通すことで自らが興
味のある情報を探し出さなければならない。そこで本研究では、ユーザー自
身もレビューを書いていることを前提とし、ユーザーと類似したレビュアー
を推薦することでレビュー閲覧の負荷軽減を図る手法を提案する。ユーザー
とレビュアーのレビュー群に出現する単語のtf-idf値、文章の長さや文字種
の割合などを素性とするRandom Forestを用いてユーザーとレビュアーの類似
度を求め、それに基づいた推薦をする。そして、推薦されたレビュアーが適
切なものであるかを被験者実験により評価する。
9月13日 (金) 9:30〜12:30
・9:30 - 11:00 形態素・学習 (3件)
(9) NVSG形態表記のための日本手話語彙分類法
○寺内 美奈 (職業能力開発総合大学校), 渡辺 桂子 (工学院大), 渡辺 久子 (株式会社 World Medish), 長嶋 祐二 (工学院大)
日本手話の記述方法として、我々が提案している階層的形態素記述モデル
NVSGがある。このNVSGモデルにおいて、手話語彙の分類方法に曖昧性が存在
する。そこで、本報告では手話の類辞(CL:Classifier)に着目し、日本手
話単語のCL分類法について検討を行ったので、その結果について報告する。
(10) ベイズ階層言語モデルと Semi-Markov SHDCRF の協調学習による教師なし形態素解析
○内海 慶, 塚原 裕史 (デンソーアイティーラボラトリ)
近年,ブログやSNS,Twitter等の,話し言葉と書き言葉が混同されて用いら
れるCGMが増えている.これまでの形態素解析では学習のために正解データを
必要としたが,話し言葉では変化が早く,常に新語に対応し続けるのは難し
い.そこで,本論文では口語体の単語分割と品詞推定の同時推定を教師なし
で行う方法を提案する.
(11) ガウス過程に基づく連続空間トピックモデル
○持橋 大地 (統数研), 吉井 和佳, 後藤 真孝 (産総研)
単語に潜在空間における座標を明示的に与え、その上でのガウス過程を考え
ることで、通常の混合モデルに基づくトピックモデルより高精度なテキスト
モデルが得られることを示す。本研究は潜在層が二値ではなく、ガウス分布
に従うRBMの生成モデルともみることができ、MCMCにより単語の潜在座標を学
習することは他の多くの応用や可視化にも自然に繋がる。
・11:15 - 12:30 招待講演
(12) 自動要約技術の研究動向:これまでとこれから
西川仁 (NTT MD研)
本講演では近年の自動要約技術の研究動向について述べる.まず,自動要約
技術をいくつかの観点から分類し,整理する.次に,これまで提案されてき
た自動要約の具体的な手法について概観する.最後に,これまでの研究の成
果を踏まえ,今後取り組むべき研究課題について議論する.