第220回NL研究発表会

第220回自然言語処理研究発表会

標記の研究発表会はペーパレスで行います（貸し出し用のUSBメモリもご用意しています）。

研究会に登録されている方
研究報告は開催初日の1週間前（＝公知日）に電子図書館と当日用サイト（登録会員用）で公開します。
研究会に登録されていない方
当日受付で資料閲覧用のアカウント情報（URL，ID，PW）をお渡しいたします。
尚、研究会にご登録いただくことで当研究会のバックナンバーも含めて全て電子図書館でご購読いただけます。登録に関しては「研究会に登録する」のページをご参照ください。

開催案内

◎ 日程: 2015年1月19日(月)・20日(火)

◎ 会場: 九州大学医学部百年講堂会議室１

◎ 交通アクセス: 地下鉄箱崎線「馬出九大病院前」下車　徒歩8分

◎ ホームページ http://www.med.kyushu-u.ac.jp/100ko-do/

◎ 照会先:

* 研究会・会場に関する問い合わせ先：

岡崎直観（東北大学）

E-mail: okazaki (at) ecei.tohoku.ac.jp

======================================================================

プログラム（発表件数15件）

1月19日(月) 13:00～17:30

[13:00～14:30] 形態素解析・構文解析 [3件]

[14:45～16:15] 用語抽出・語義曖昧性解消 [3件]

[16:30～17:30] 招待講演 [1件]

1月20日(火) 10:00～16:00

[10:00～11:30] 意味解析 [3件]

[13:10～14:00] ソーシャルメディア [2件（ショート1件）]

[14:15～15:45] 生成・アノテーション [3件]

[15:45～16:00] クロージング

======================================================================

1月19日(月) 13:00～17:30

■ 13:00～14:30 形態素解析・構文解析 (3件) ■

座長：浅原正幸 (国立国語研究所)

( 1) 係り受け情報を利用した日本語形態素解析

俵雄貴，東藍，松本裕治 (奈良先端科学技術大学院大学)

現在までに様々な形態素解析手法が提案されており，形態素解析の精度は高い

水準に達している．その一方で既存の手法では上手く解析できない事例が報告

されている．本研究では，そういった事例に対して係り受けの情報を用いるこ

とにより解決を試みる．しかし，係り受けの情報を使うためには少なくとも文

が単語に区切られている必要があり，形態素解析の段階で係り受けの情報を利

用することは困難である．そこで本研究では形態素解析と係り受け解析を同時

に行うことにより，係り受けの情報を形態素解析に利用する．同時解析では，

形態素ラティスに対してCYKアルゴリズムを適用し，形態素の並びのスコアと

係り受けのスコアの２つのスコアを考慮することにより解析を行う．

( 2) 複数の述語項関係を利用した文内ゼロ照応解析

大内啓樹，進藤裕之，Duh Kevin，松本裕治 (奈良先端科学技術大学院大学)

述語項構造解析において，省略された項の検出と，それが指示する要素の同定

を，特にゼロ照応解析と呼ぶ．従来のゼロ照応解析では，各述語に対して，文

内の他の述語項との相互関係を考慮せず，独立に項を決定するというアプロー

チが主流であった．しかし，文内に出現する述語間には意味的な関連があり，

ある述語の項の決定が他の述語の項決定に影響を及ぼすように思われる．した

がって，複数の述語項の相互関係に関する情報は，ゼロ照応解析に役立つこと

が期待される．本稿では，複数の述語項関係を同時に考慮し，決定するモデル

を提案し，ゼロ照応解析の精度向上に取り組む．NAISTテキストコーパスを用

いた評価実験により，提案モデルの有効性を示す．

( 3) 隠れセミマルコフモデルに基づく品詞と単語の同時ベイズ学習

内海慶，塚原裕史 (デンソーアイティーラボラトリ)，

持橋大地 (統計数理研究所)

本論文では，教師なし学習による品詞を含めた形態素解析手法を提案する．従

来の教師なし形態素解析手法は分かち書きのみを対象にしており，品詞の推定

は扱われていなかった．これに対し，本研究では品詞の遷移確率と単語の生起

確率の事前分布にPitman-Yor過程を用いた隠れセミマルコフモデルに基づく形

態素解析手法を提案し，品詞推定と単語分割を同時に学習することで，単語分

割の精度についても向上することを示す．

■ 14:45～16:15 用語抽出・語義曖昧性解消 (3件) ■

座長： Duh Kevin (奈良先端科学技術大学院大学)

( 4) テキストストリームからの新エンティティの即時的検出

槇佑馬 (東京大学)，吉永直樹，鍜治伸裕 (東京大学/情報通信研究機構)，

喜連川優 (国立情報学研究所/東京大学)

Twitterなどのテキストストリームには次々と新しいエンティティが出現する。

それらを正しく認識するためには、未知のエンティティをできるだけ早期に検

出して辞書に自動登録することが重要になる。本論文では、機械学習を用いて

テキストストリームから未知のエンティティ文字列を早期に検出する手法を検

討する。

( 5) 文脈・語義対応の階層ベイズ推定による教師なし語義曖昧性解消

谷垣宏一 (三菱電機（株）/早稲田大学)，徳本修一，

撫中達司 (三菱電機（株）)，匂坂芳典 (早稲田大学)

語彙を限定しない語義曖昧性解消(all-words WSD)のための新しい教師なし学

習モデルを提案する．all-words WSDは，辞書知識を言語処理に活用する基礎

技術として実用化が期待されるが，識別対象である語義は種類が膨大でかつ分

布がドメインに強く依存する性質があり，ラベル付きコーパスの構築を前提と

する教師あり学習では実用化を見込むことが難しい．提案法は，ラベルなしコー

パスの語と膨大な語義の間に自然な対応を推定するため，2つの制約をモデル

化する： 1)類似した文脈に出現する語群の語義は，互いの語義からの外挿に

従う．2)同じ語の各出現における語義は，単語タイプ毎の事前分布に従う．こ

れらの相補的制約を単一の階層ベイズモデルに統合し，教師なしall-words WSD

を実現する．SemEvalデータセットを用いた実験結果より提案法の有効性を示す．

( 6) 形態素解析の系統的誤りと用語抽出

小山照夫 (国立情報学研究所)，竹内孔一 (岡山大学大学院自然科学研究科)

日本語用語抽出にあたって、一般文書に最適化された形態素解析器および形態

素辞書を使用した専門文書解析では、解析に系統的誤りを生じることがある。

これらについて誤りの傾向と本来の正解パタンが推定できる場合、解析結果を

修正することによって、用語抽出の性能を向上させることが期待できる。本研

究では情報処理分野の抄録文書について、どのような系統的誤りが存在するか

を検討し、修正を行うことによって用語抽出性能が向上する事を報告する。

■ 16:30～17:30 招待講演 (1件) ■

座長：乾健太郎 (東北大学)

( 7) 諸言語の歴史的変化に対する数理的取り組み

村脇有吾 (九州大学)

この世界にあまたある言語がどのように生まれ、どのように変化してきたかに

は未解明な点が多い。この問題には従来言語学者が取り組んできたが、近年、

もともと生物学の系統研究のために開発された数理モデルが言語に適用される

事例が増えている。本講演では、諸言語の歴史的変化とそれに対する数理的取

り組みを紹介するとともに、従来研究が必ずしも言語の特性を捉えていないの

ではないかという問題意識のもと、今後の方向性を議論する。

======================================================================

1月20日(火) 10:00～16:00

■ 10:00～11:30 意味解析 (3件) ■

座長：持橋大地 (統計数理研究所)

( 8) 節境界検出を用いたセンター試験『国語』評論傍線部問題ソルバー

加納隼人，佐藤理史，松崎拓也 (名古屋大学大学院工学研究科)

本年度新たに実装した，大学入試センター試験『国語』評論傍線部問題を解く

ソルバーについて報告する．実装したソルバーでは，傍線部問題の本文と選択

肢に対して節境界検出による節分割を行い，節単位で類似度計算を行うことで

解答を選択する．本ソルバーをセンター試験の過去問に適用したところ，昨年

度のソルバーを上回る最大70%の正解率を示した．

( 9) 観点情報を用いた行列分解によるマルチラベル文書の分類

丸田要，永井秀利，中村貞吾 (九州工業大学)

　現在，文書集合を効率良く整理・検索する手法の一つとしてクラスタリング

検索手法がある．この手法は検索結果をクラスタリングし分類することで目的

のカテゴリに絞って目的の文書を探すことができる．しかし，テキスト分類に

は分類を行うユーザの目的・観点により結果が異なるという性質が存在してい

る．つまり，ある単一の文書データは観点が異なると分類されるクラスが異な

る場合がある．その場合ユーザが考える分類とシステムによる分類に差異がで

き，その差異部分に含まれる文書データはユーザの情報検索の阻害や見落とし

を発生させると考えられる．そこで，ユーザによる文書分類例から観点を抽出

し，その観点情報をテキスト分類に反映させることでユーザの望む分類を行う．

それにより，ユーザが目的の文書を効率よく検索することができることを目指

す．　本論文では，テキスト分類手法としてNMFや次元圧縮を利用するが，そ

の際にテキスト分類に反映させる観点情報の適用方法を複数提案する．そして，

実験による比較により各適用方法を評価する．

(10) 意味と構造の構成演算と類似度学習における非線形性

椿真史，Duh Kevin，新保仁，松本裕治 (奈良先端科学技術大学院大学)

本論文で我々は、単語ベクトル空間におけるデータ間の演算を含めた類似度学

習手法を新たに提案する。我々は特に、自然言語処理における単語の意味ベク

トル空間から、文の意味構成に伴って生じる新たな空間の類似度学習に焦点を

当てる。この際、カーネルを用いた非線形類似度学習が効果的であることを示

す。実験結果は、ベクトル空間において単語からより複雑な文の意味を適切に

構成する際、単語が表現される空間とは異なる高次元の空間が必要となり、非

線形手法が重要な役割を果たすことを示唆している。

■ 13:10～14:00 ソーシャルメディア (2件) ■

座長：村脇有吾 (九州大学)

(11) SNSにおける感情表現とその相互作用関係の抽出

足立悠 (奈良女子大学大学院　人間文化研究科)，

戸田幹人 (奈良女子大学　自然科学系)

ネットにおける炎上の例に典型的なように、或る表現に反応が集中するという

現象は数多い。あるいは、或る情報や意見が他の人に引用され、有意義なコメ

ントや共感を呼ぶ。このように、複数の言語表現の間に行き交う共感や反感を

どのように特徴付け、さらにはそれをインターネットの設計にどう利用するか、

自然言語処理の問題として基礎的にも応用面でも重要である。このような観点

から我々は、ブログなどを通じた双方向のやりとりを通じて、人々の間にどの

ように情報や感情が伝搬するかという問題を研究している。ここではコメント

間の参照関係が明確に分かるSNSのデータを用い、特に感情語の相関を解析す

ることで、コメント間の関係性を明かにする試みを行っているので、その結果

を報告する。

(12) 場所参照表現タグ付きコーパスの構築と評価

松田耕史，佐々木彬，岡崎直観，乾健太郎 (東北大学)

ソーシャルメディア上からサンプリングした日本語テキストに中に現れる場所

参照表現に対して座標情報を含む具体的なエンティティ情報を付与したコーパ

スを試作した．その際，エンティティ辞書をどのように構築するか，アノテー

ション付与の対象をどの範囲にするかなど，様々な設計上の選択を行うことが

必要であったため，この過程で行われた議論について述べる．また，ガイドラ

インの妥当性を検証するために複数人でアノテーションを行い，その結果浮か

び上がった課題を整理し，実際に場所参照表現のグラウンディングを行うため

にはどのような技術的課題を解決しなければならないかを考察する．

■ 14:15～15:45 生成・アノテーション (3件) ■

座長：吉永直樹 (東京大学/情報通信研究機構)

(13) 係り受け解析との統合に基づく日本語文の語順整序

吉田和史 (名古屋大学大学院情報科学研究科)，

大野誠寛 (名古屋大学情報基盤センター)，

加藤芳秀 (名古屋大学情報連携統括本部)，

松原茂樹 (名古屋大学大学院情報科学研究科)

本発表では，読みにくい語順をもった日本語文に対して，より読みやすくなる

ように文節を並べ替える手法を提案する．本手法は，係り受け構造が付与され

ていない文を入力とし，係り受け解析と語順整序を同時に行う．係り受けと

語順の適切さを同時に考慮することにより，読みやすい語順を精度よく同定

することが期待できる．新聞記事を用いた評価実験により，本手法の有効性を

確認した．

(14) 比較記述テキスト中の比較表現のアノテーションと分析

飯田諒 (東京工業大学大学院情報理工学研究科)，飯田龍 (情報通信研究機構)，

徳永健伸 (東京工業大学大学院情報理工学研究科)

従来の参照表現生成では，ある対象を，他の対象と区別し，曖昧性なく簡潔に

指示する表現を生成することを目的に研究が進められてきた．これに対し，本

研究では，複数の対象を横並びで比較し，言及する対象ごとに適切な比較対象

を選び，すべての対象についてその特徴を記述するテキストの生成を目指して

いる．このようなテキストを本研究では比較記述テキストと呼ぶ．比較記述テ

キストでは，対象を比較して述べる際に様々な比較の方略が採用されるが，本

研究ではこの比較の種類を分類し，その分類カテゴリの情報を既に収集済みの

比較記述テキスト集合へアノテーションした結果について報告する．さらに，

アノテーションした内容を分析し，比較対象との関係を考慮して比較記述テキ

ストを自動生成する際にどのような点に留意する必要があるかを調査した結果

についても報告する．

(15) 単一文書自動要約のための言語資源構築に向けて

浅原正幸，加藤祥 (人間文化研究機構　国立国語研究所)，

今田水穂 (文部科学省)

本研究では単一文書自動要約の新たな展開について言語資源と評価指標の観

点から検討する。まず、最初に語順に対する順序尺度を含めた距離空間・類

似度・相関係数・カーネルにより既存の自動評価指標の整理を行い、現在ある

言語資源を用いてその指標空間の性質を明らかにする。次に自動要約の評価と

して必要な軸として、提供すべき情報の過不足と読みやすさの2つを考える。

情報の過不足については、元文書の情報構造を言語生産者・言語受容者の双方

の観点から分析し、システム要約・参照要約双方の情報の質を検討する。読み

やすさについては、生成されたテキストの読み時間に基づいた定量的な評価方

法について検討する。最後に語順・情報構造・読み時間の関係性について解説

し、読み時間を用いた言語受容者毎の要約作成の可能性について議論する。

■ 15:15～16:00 クロージング ■

======================================================================

★ 研究報告のペーパーレス化

本研究会はペーパーレスでの開催となり，印刷した研究報告の配布を行い

ません．また，特許出願の公知日（研究報告の公開日）が従来より1週間

早まりますので，ご留意ください．

※自然言語処理研究会に登録されている方

研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開

します．当日は資料をプリントアウトしてご持参いただくか，ご自身の

PCにダウンロードのうえ，ご持参ください．

情報処理学会電子図書館（情報学広場）

https://ipsj.ixsq.nii.ac.jp/ej/　（ユーザ登録が必要です）

当日閲覧用サイト

http://www.ipsj.or.jp/sig-reports/

※自然言語処理研究会に登録されていない方

当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します．

当日はノートPC等をご持参ください．なお，当研究会にご登録頂くことで，

本研究会の資料をバックナンバーも含めて電子図書館で購読できます．

登録されていない方は，是非この機会に研究会に登録してください

（登録まで最大3日かかりますのでご留意ください）．

発表募集

----------------------------------------------------------------------
情報処理学会第220回自然言語処理研究会発表募集
----------------------------------------------------------------------

●日程: 2015年1月19日(月)・20日(火)
●会場: 九州大学医学部百年講堂会議室１
http://www.med.kyushu-u.ac.jp/100ko-do/
●交通アクセス: 地下鉄箱崎線「馬出九大病院前」下車　徒歩8分
●発表申込締切: 2014年12月2日(火)
●原稿締切: 2014年12月16日(火) ※厳守
●原稿ページ数: 1ページ～
電子化に伴いページ数に制限はありません．
ただし，20ページを越える場合は事前にご連絡ください．

●発表時間予定: 1件につき30分（発表20分，質疑10分）
※発表時間の調整について
従来の一般形式（発表20分，質疑10分）に加えてショート形式（発表10分，
質疑10分），討議形式（発表10分，質疑討論20分）など，発表者からの
要望に応じて発表の合計時間を調整したいと思います．アイデアレベルの
研究の紹介や，研究の詳細まで話したいので時間が欲しい，等のご要望を
発表申込の備考欄にご記入いただければ，それらを考慮してプログラムを
編成したいと思います．ぜひご活用ください．

●優秀発表賞（仮称）
研究会での優秀な研究発表を「優秀発表賞（新設、仮称）」として表彰する予定です．

●発表申込先: 下記専用サイトよりお申込みください．
https://ipsj1.i-product.biz/ipsjsig/NL/　　（研究会ホームページからもアクセスできます）

●動画中継
今回の研究会では，インターネットを利用した研究発表の動画中継を試行
する予定です．基本的にすべての発表を動画中継の対象とする予定ですが，
発表者の希望により対象から外すことも出来ますので，研究発表の当日に
その旨お伝えください．動画中継の詳細については，追ってアナウンス
いたします．

●研究会・会場に関する問い合わせ先:
岡崎直観（東北大学） < okazaki (at) ecei.tohoku.ac.jp >

●今後の予定
第219回 2014年12月16-17日
東京工業大学すずかけ台キャンパス
電子情報通信学会言語理解とコミュニケーション研究会(第６回集合知シンポジウム)との共催

★研究報告のペーパーレス化
本研究会はペーパーレスでの開催となり，印刷した研究報告の配布を行い
ません．また，特許出願の公知日（研究報告の公開日）が従来より1週間
早まりますので，ご留意ください．

　※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開
します．当日は資料をプリントアウトしてご持参いただくか，ご自身の
PCにダウンロードのうえ，ご持参ください．

　情報処理学会電子図書館（情報学広場）
https://ipsj.ixsq.nii.ac.jp/ej/　（ユーザ登録が必要です）
当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

　※自然言語処理研究会に登録されていない方
当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します．
当日はノートPC等をご持参ください．なお，当研究会にご登録頂くことで，
本研究会の資料をバックナンバーも含めて電子図書館で購読できます．
登録されていない方は，是非この機会に研究会に登録してください
（登録まで最大3日かかりますのでご留意ください）．

★研究会への登録をお勧めします
年に２回以上の参加を見込まれる方は，研究会に登録される方が（ほぼ）
お得になります．研究会登録は以下のウェブサイトから行えます．
http://www.ipsj.or.jp/kenkyukai/toroku.html

★受け付けは先着順で行なっております
多数のお申し込みを頂いた場合，次回の研究会にまわって頂くよう
お願いする場合があります．なるべく早めにお申し込み下さい．

★締め切り後の発表キャンセルは原則としてできません
発表申し込み後にキャンセルの必要が生じた場合は，至急ご連絡ください．
発表申込後，原稿提出締め切りまでに原稿が到着しない場合には，幹事団の
判断により発表を取り消しさせていただくこともあります．

★論文提出締切後の原稿差し替えはできません
論文提出締切後は，訂正版のアップロードやウェブ上での配布などの原稿
差し替えは一切できませんので，予めご留意ください．
※正誤表の掲載が可能な場合がありますのでご相談ください．

★研究会幹事団
主査: 乾健太郎 (東北大学)
幹事: 岡崎直観 (東北大学), 小町守 (首都大学東京), 森信介 (京都大学)