第214回NL研究発表会

標記の研究発表会はペーパレスで行います（貸し出し用のUSBメモリもご用意しています）。

研究会に登録されている方
研究報告は開催初日の1週間前（＝公知日）に電子図書館と当日用サイト（登録会員用）で公開します。
研究会に登録されていない方
当日受付で資料閲覧用のアカウント情報（URL，ID，PW）をお渡しいたします。
尚、研究会にご登録いただくことで当研究会のバックナンバーも含めて全て電子図書館でご購読いただけます。登録に関しては「研究会に登録する」のページをご参照ください。

参加募集

----------------------------------------------------------------------
情報処理学会第214回自然言語処理研究会
参加募集
----------------------------------------------------------------------

◎ 日程: 2013年11月14日(木), 15日(金)

◎ 会場: 屋久島環境文化村センター
        https://www.yakushima.or.jp/htdocs/index.php?action=pages_view_main&page_id=17
    ※インターネットアクセスがないようです

◎ 研究会ホームページ:
        http://www.nl-ipsj.or.jp/

◎ 照会先:

* 研究会に関する問い合わせ先:
森信介 (京都大学)
E-mail: forest (at) i.kyoto-u.ac.jp

* 会場に関する問い合わせ先:
同上

会場の予約状況に対して多数の申し込みがあったため、一般形式の発表時間を
１件25分(発表18分，質疑7分)にさせていただいております。

======================================================================
プログラム (発表件数 21件)

11月14日 (木) 13:45～17:00
[13:45 - 15:00] 文章分析 (3件)
[15:20 - 17:00] 言語解析 (4件)

11月15日 (金) 9:20～17:00
[ 9:20 - 10:35] 複合語・語義 (3件)
[10:45 - 11:55] コーパス・アノテーション (3件; ショート形式1件を含む)
[13:00 - 14:40] Web文章処理等 (4件)
[15:00 - 17:00] 深い言語処理 (4件), 総合討論
======================================================================

11月14日 (木) 13:45～17:00

・13:45 - 15:00 文章分析 (3件)

座長: 藤田篤 (未来大)

(1) フレーズ生成機構を組み込んだ潜在変数を有する生成モデルによるトピック分析
○濱田龍之介, 船津繁晃, 冨浦洋一 (九州大学)

キーワードで論文を検索した際には，膨大な量の検索結果が得られる．その中
から利用者が欲している情報を探すために，それら全てのアブストラクトを読
んで確認するのは大変な労力を要する。そこで、文書集合内のトピックを推定
し、利用者に該当するトピックを指定させ、指定したトピックを含む論文に絞
り込むことが考えられる。トピック分析の代表的な手法であるLDAでは、それ
ぞれのトピックで高い確率で出現する語を提示することによってトピックの意
味内容を把握させる。しかし、キーワード検索でヒットした論文アブストラク
ト集合は、文書内の単語、文書数ともに少なく、かつ内容が類似しているた
め、前述のような単語を提示する方法ではトピックの内容を把握するのは難し
い。そこで、フレーズを生成する仕組みをモデルに組み込んでLDAを拡張する
ことにより、複数の内容語から成るフレーズを提示することで、トピックの内
容理解を容易にする手法を提案する。

(2) クエリ依存文短縮と見出し生成への応用
○西川仁, 今村賢治, 別所克人, 牧野俊朗, 松尾義博 (NTT)

文短縮は長い文を重要な部分のみを残して短く縮める処理であり，抽出型要約
における重要な要素技術である．本発表では何らかの新聞記事に対して端的な
見出しを付与する問題を考え，これをクエリ依存文短縮タスクとして定式化す
る．見出しの元とする文と，クエリの形で表現される短縮後も残されるべき情
報の2つが与えられているものとし，後者をできるだけ保持したまま前者の係
り受け木の枝刈り候補の中から良好な候補を探索する．

(3) 発表取り消し

(4) 適合性フィードバックにおけるユーザ負荷軽減手法
○金子弘明, 梅澤猛, 大澤範高 (千葉大学)

情報検索において初期検索結果に対するユーザ評価を基に有用な文献を収集・
絞り込みを行う適合性フィードバック手法は、ユーザに特別な検索技術や知識
を要さず再検索を容易にする。しかし、適合・不適合の判別精度がフィード
バック数と相関を持つため、高い効果を得るにはユーザに検索結果を多くの文
献を閲覧・評価する労力を要する。そこで本論文ではユーザの労力を軽減する
ために、少量のフィードバックから機械学習手法を用いて疑似的なフィード
バックを得る手法を検討する。

・15:20 - 17:00 言語解析 (4件)

座長: 村脇有吾 (九州大学)

(5) 構造学習のためのBoosting手法の提案とSemi-Markov Perceptronへの適用
○岩倉友哉 (富士通研究所)

自然言語処理での単語列からの，品詞列，名詞句・動詞句などの単語チャンク
列，構文木へのマッピングといった，観測されたデータ構造を対応する構造に
マッピングするためのモデルを学習する構造学習のためのBoosting手法を提案
する．また，本Boosting手法を，Semi-Markov Perceptronに適用し，Noun
Phrase Chunking，Text Chunking，拡張固有表現抽出で評価した結果を報告す
る．

(6) 正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入
○斉藤いつみ, 貞光九月, 浅野久子, 松尾義博 (NTT)

近年twitter等を代表とするマイクロブログが普及し，個人によって書かれた
テキストを対象とした評判分析や要望抽出，興味推定に基づく情報提供な
ど個人単位のマーケティングのニーズが高まっているが，このようなマイクロ
ブログ上のテキストでは口語調や小文字化，長音化，ひらがな化，カタカ
ナ化など新聞等で用いられる標準的な表記から逸脱した崩れた表記が多く
出現し形態素解析誤りを起こす一因となっている．従来はこれらの崩れ表記に
対し，崩れた表記を直接辞書に追加する方法や，事前に人手で定めたルー
ルに基づき崩れた表記を新聞等の表記に正規化して解析する方法などが用
いられてきた．しかし，崩れた表記のパタンは多様であるため，人手による辞
書追加やルール作成で現実に存在する多くのパタンを網羅することは高コ
ストであり，再現率の点で限界がある．本研究では，ソーシャルメディア
上のテキストから抽出した崩れ表記に対し正規表記を付与した正解データを用
いて，最適なアライメントを求め文字列レベルの表記の崩れパタンを自動
抽出する．また得られたパタンに基づき，入力文の崩れ表記から正規の表
記を展開し形態素ラティスを拡張することで，従来法に比べ多様な崩れパタン
の解析が可能になることを示す．

(7) 係り受け関係の階層化とその共起に基づいた構文木モデルを利用した構文解析手法の提案
○大野一樹, 波多野賢治 (同志社大学)

本発表では係り受け関係の階層化とその共起頻度を素性とした構文木モデルを
生成し，これを利用した構文解析手法を提案する．我々は以前に文末の文節を
根とすることで，文末の文節から他の文節へとコンテキストを辿ることで係り
受け関係の階層化に基づいた n-gram ベースの構文木モデルを生成し，これを
利用した構文解析手法の提案を行った．しかし，提案した手法は文節を構
成する形態素の品詞を素性としており，単一の係り受け木の生起頻度を考慮し
て，文節間の係り受け関係の生起確率の計算を行っている．そのため，係り受
け関係の生起に考慮されるコンテキストが不足しており，全体の精度としては
従来手法と比較して優れた結果を得ることができなかった．そのため，係り受
け関係の階層化とその共起頻度に基づいた構文木モデルを利用して構文解析を
行うことで解析精度の向上を行う．

(8) 依存構造解析における従属接続詞認識の効果
○大内啓樹, 増田優, 金丸智史, 松本裕治 (NAIST)

従属節や埋め込み節を含む複雑な文を正確に解析することは困難である。本研
究では、Penn Treebankコーパスの依存構造解析における従属接続詞表現の認
識が持つ効果を調査した。我々は2つの文構造を結びつける表現を従属接続詞
表現と広く定義した。S構造のc-統御位置に現れ、SBAR直下にある表現を従属
接続詞表現として抽出した。さらに、テストデータに現れる従属接続詞表現を
識別する分類器を作成し、英語依存構造解析においてそれらの自動でアノテー
ションした従属接続詞表現がどのように精度向上に寄与するかを調査した。

11月15日 (金) 9:20～17:00

・9:20 - 10:35 複合語・語義 (3件)

座長: 高橋哲朗 (富士通研究所)

(9) 対義形容詞対との相互情報量を利用した概念語の順序付け
○仁科俊晴, 鍜治伸裕, 吉永直樹, 豊田正史 (東京大学)

本稿では，複数の概念語を，それらに共通する (「大きさ」や「高さ」などと
いった)性質の程度に基づいて順序付けするタスクを提案し，大規模なウェブ
テキストを用いて解く方法を検討する．本研究の目的は，大規模なウェブテキ
ストから，概念の順序関係に関する人々の共通認識を導けるかという問いに答
えることにある．また，提案手法により，実際にアンケート調査を行わなくて
も，例えば好感度やブランドへのロイヤルティランキングなどを作成すること
が可能になると期待できる．ランキング作成には，ウェブテキストから得られ
る統計情報をもとに計算した，概念語と対義形容詞対 (「大きい」と「小さ
い」，「高い」と「低い」など)との相互情報量を利用する．実験では，人手
による順序付け結果との近さを相関係数を用いて測ることにより，提案手法の
有効性を評価する．

(10) Wikipedia内部リンクの言語間変換
○綱川隆司, 梶博行 (静岡大学)

Wikipedia記事に存在する内部リンクは、その記事とリンクされた記事との関
連性を明示し、関連する記事への素早いアクセスを可能にすることで記事の理
解を容易にするという重要な役割を担っている。一方で、内部リンクの付与は
記事の編集者が人手で行っている。本論文では、Wikipedia記事のテキストに
対し、その記事と同じ事柄に言及する他の言語版の記事の内部リンクを変換す
ることで、内部リンクの付与を自動で行う方法を提案する。言語間リンクで結
ばれた既存のWikipedia記事対を用いて、本方法で付与する内部リンクの精度
が非常に高いことを示す。また、本方法で付与された適切でない内部リンクに
ついて考察する。

(11) フレーズベースTF-IDF: 名詞句解析の応用
○村脇有吾 (九州大学)

文書中の重要語の認識は様々な応用の基礎となるタスクである。そうした重
要語は、しばしば単語ではなく、単語列からなる。しかし、教師なし手法
におけるstate-of-the-artは、単語TF-IDFの総和によるスコア付けであ
り、単語列の意味的まとまりを認識しない。そこで、本稿では、名詞句の
内部構造解析を応用し、複数の単語からなるフレーズに対して直接
TF-IDFを算出する手法を提案するとともに、その振る舞いを分析する。

・10:45 - 11:55 コーパス・アノテーション (3件; ショート形式1件を含む)

座長: 岩倉友哉 (富士通研究所)

(12) SDRTに基づく談話関係アノテーションの試み (ショート形式)
○金子貴美, 戸次大介 (お茶大)

日本語テキストにおける談話関係(discourse relation)の自動認識に対する
ニーズが高まるにつれて、談話関係のアノテーション技術の重要性も増してき
ている。しかし現時点では、理論言語学の意味論・語用論の近年の進展、たと
えば特定の談話関係が、照応や因果関係の可能性を制限するといった知見を踏
まえたアノテーションは少ない。本研究では、SDRT (Segmented Discourse
Representation Theory; Asher and Lascarides (2003))において詳細に論じ
られている談話関係をもとにした日本語の談話関係アノテーションの枠組みに
ついて考察・報告する。また、SDRTのグループにおいて行われている英語の対
話テキストのアノテーションとの比較も行う。

(13) 日本語述語項構造アノテーションに関わる諸問題の分析
○松林優一郎 (東北大学), 飯田龍, 笹野遼平 (東工大), 横野光 (NII), 松吉俊 (山梨大学),
   藤田篤 (未来大), 宮尾祐介 (NII), 乾健太郎 (東北大学)

日本語の述語項構造アノテーションコーパスは、形態素解析や係り受け解析技
術の場合と同様、述語項構造解析技術の発展に大きく貢献した。一方で、コー
パスの作業者間一致率や定性的な分析からは、既存のアノテーションガイドラ
インに未だ改善の余地があることが分かる。
本報告では、述語項構造アノテーションのガイドラインのさらなる改善を目指
し、既存コーパスの仕様策定に関わった研究者や仕様の改善に関心のある研究
者らの考察をもとに現状のガイドラインの問題点を洗い出し、整理・分析した
結果を報告する。また、分析を通じてコーパスアノテーションガイドラインの
作成・改善の方法論についても議論する。

(14) レシピテキストのためのフローグラフの定義
○森信介, 山肩洋子, 笹田鉄郎, 前田浩邦 (京都大学)

調理の手順についての文章を表現するためのフローグラフの定義を提案す
る。述語項構造や共参照が問題の中心である。

・13:00 - 14:40 Web文章処理等 (4件)

座長: 吉永直樹 (東京大学)

(15) マイクロブログ上の告知投稿に対する非明示的な関連投稿の収集
○塚本悠馬, 笹野遼平, 高村大也, 奥村学 (東工大)

近年，Twitterをはじめとするマイクロブログを利用した商品やイベントの告
知に対し，多くのユーザが感想など告知の投稿者にとって有益な関連投稿を行
うようになってきている．しかし，関連投稿の多くは告知投稿とは明示的に関
連付けられてはいないため，告知の投稿者がこれらの関連投稿を見つけるのは
容易ではない．そこで本研究では，特にTwitterの機能であるリツイートに注
目し，告知に対する非明示的な関連投稿を効率的に収集する手法を提案する．

(16) 日本語と英語のツイートの末尾にある不読符号列の比較
○中嶋邦裕, 渡辺靖彦, 松本浩輝, 西村涼, 岡田至弘 (龍谷大学)

本研究では、Twitterに投稿された日本語と英語のツイートを比較し、投稿の
末尾にある不読符号列がそれぞれどのように用いられているかを調べる。そし
て、日本語の場合、特定のユーザへのツイートでは末尾で不読符号列が用いら
れるケースが増加するのに対し、英語の場合、ほとんど増加しないことを示
す。

(17) 辞書見出し語中の複合語を対象とした字種変化特性の分析
熊澤侑美, ○齋藤恵, 後藤智範 (神奈川大学)

本研究は、NL-202の「大規模複合語データに対する構成字種解析」と同一の
コーパスを用い、化学物質名等を除外した、先頭字種がひらがな、カタカ
ナ、漢字である多字種複合語、約11万語を対象に、これらの用語群の字種変
化特性について調査・分析結果を報告する。複数辞書(国語辞典、専
門用語辞典など)の見出し語

(18) 発言同期を用いたマイクロブログ著者の位置推定
○高橋哲朗 (富士通研究所)

twitterに代表されるマイクロブログは世の中の動向を知るためのセンサとし
ての活用が可能であるが，発言位置を特定できる著者は一部でしかないため地
理的な活用が難しいという課題がある．そこで本研究では「雨」のような局所
性のあるイベントに対する発言の同期を集計することにより，発言位置の特定
できないユーザの位置情報を推定する手法を提案しその実験結果を報告する．

・15:00 - 17:00 深い言語処理 (4件), 総合討論

座長: 松林優一郎 (東北大学)

(19) 組み合わせ範疇文法(CCG)による日本語の敬語表現の分析に向けて
○渡辺成美, 戸次大介 (お茶大)

本研究では、戸次(2010)のCCGによる日本語文法の分析を拡張し、敬語表現の
ための統語素性と語彙項目を提案する。特に「お勉強になる」「お勉強する」
「ご勉強になる」「ご勉強する」という例に見られるような連接条件と用法を
整理し、例外的な用例も含めてCCGの範囲で定式化を行う。また、敬語表現の
ための構成的な意味論についても考察する。

(20) 限定継続を用いたフォーカスの分析と実装に向けて
○叢悠悠, 浅井健一 (お茶大), 戸次大介 (お茶大/NII)

近年、プログラミングにおける「継続」という概念を用いて様々な言語現象の
意味を記述する研究が行われている。継続とは、残りの計算、すなわちある部
分項に対する文脈のことを指す。本研究では、限定継続命令shift/resetを用
いた副詞onlyのフォーカスの分析(Bekki and Asai (2009))をOCamlで実装し
た。また、Bekki and Asai (2009)の分析の問題点と、その解決法についても
述べる。

(21) TIFMO: An Inference-based textual entailment recognition system
○Tian Ran, Miyao Yusuke (NII)

In this paper, we introduce an open-source, multilingual (Japanese
and English), inference-based textual entailment recognition system,
TIFMO. It uses semantically annotated dependency trees (DCS trees) to
represent meanings of sentences, and it also supports description
logic inference rules. Thus, the system provides seamless integration
of natural language information and structured data such as
ontology. For Japanese and English, simple rule-based semantic
parsers and implementation of common word knowledge are provided. Two
features of the system are: (i) it can guess may-be-missing knowledge
by comparing DCS tree representations of T and H, which drastically
improves the possibility to find a complete proof from T to H,
resulting an unsupervised system that can outperform supervised word
overlap; and (ii) it can evaluate the inference process through the
concept of logical overlap, even when a complete proof is not
available, which improves the robustness of the system.

(22) 大規模言い換え知識ベースの評価方法についての一考察
○藤田篤 (未来大)

これまでに，様々な種類のコーパスから語句レベルの語彙的な言い換え対を獲
得するための手法が提案されてきた．これらの研究の目的は，高いカバレージ
と精度の両方を満たすような言い換え知識ベースを構築することであるが，自
動獲得できる言い換え候補表現は極めて大規模であるため，ひとたび構築した
知識ベースを評価する手法の方に，未解決の問題が残されている．本稿では，
それらの問題をひと通り整理するとともに，既存の評価方法のうち，特に実際
の文における語句の置換テストを取り上げ，人間の評価者の判断の一貫性を向
上させるいくつかの試みについて報告する．

(23) 総合討論

======================================================================

★ 研究報告のペーパーレス化

本研究会はペーパーレスでの開催となり，印刷した研究報告の配布を行いませ
ん．また，特許出願の公知日（研究報告の公開日）が従来より1週間早まります
ので，ご留意ください．

[自然言語処理研究会に登録されている方]
研究報告は研究発表会の一週間前に電子図書館と当日閲覧用サイトで公開しま
す．当日は資料をプリントアウトしてご持参いただくか，ご自身のPCにダウン
ロードの上PCをご持参ください．

■情報処理学会電子図書館（情報学広場）
※ご利用にはユーザ登録が必要です．
https://ipsj.ixsq.nii.ac.jp/ej/

■当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

[自然言語処理研究会に登録されていない方]
当日受付で当研究発表会の資料閲覧用にUSBメモリを貸し出します．当日はノー
トPC等をご持参ください．尚，当研究会にご登録いただくことで当研究会の資
料のバックナンバーも含めてすべて電子図書館でご購読いただけます．登録さ
れていない方は，是非この機会に研究会に登録してください．
（登録まで最大3日かかりますのでご留意ください）

発表募集

----------------------------------------------------------------------
情報処理学会 第214回自然言語処理研究会
発表募集
----------------------------------------------------------------------

◎ 日程: 2013年11月14日(木), 15日(金)

◎ 会場: 屋久島 環境文化村センター
        http://yakushima.or.jp/htdocs/

◎ 発表申込締切: 2013年10月1日(火)　※延長しました

◎ 原稿締切: 2013年10月23日(水) ※締切厳守
　　　正式な締切日と執筆要領等は，
　　　申込後に学会事務局から届く原稿執筆依頼をご参照ください
　　　※10月7日までに原稿依頼が届かない場合は，
　　　情報処理学会　研究会担当　渡辺未果までご連絡ください．
　　　Tel：03-3518-8372

◎ 原稿ページ数:1ページ～
　電子化にともないページ数に制限はありません．
　※ただし20ページを越える場合は事前にご連絡ください．

◎ 発表時間予定: 一般形式 1件30分 (発表20分、質疑10分)
※ 発表時間の調整について
従来の一般形式(発表20分，質疑10分)に加えてショート形式(発表10分，
質疑10分)，討議形式(発表10分，質疑討論20分)など，発表者からの要望
に応じて発表の合計時間を調整したいと思います．アイデアレベルの研究
の紹介や，研究の詳細まで話したいので時間がほしい，などの要求を発表
申込の備考欄にご記入いただければ，それらを考慮してプログラムを作成
したいと思います．ぜひご活用ください．

◎ 発表申込先: 下記専用サイトよりお申込みください．

　＊自然言語処理研究会用申込ページ: https://ipsj1.i-product.biz/ipsjsig/NL/

　（研究会ホームページ: http://www.nl-ipsj.or.jp からもアクセスできます）

◎ 照会先:

* 研究会に関する問い合わせ先:
森 信介 (京都大学)
E-mail: forest (at) i.kyoto-u.ac.jp

* 会場に関する問い合わせ先:
同上

★ 研究報告のペーパーレス化

本研究会はペーパーレスでの開催となり，印刷した研究報告の配布を行いませ
ん．また，特許出願の公知日（研究報告の公開日）が従来より1週間早まります
ので，ご留意ください．

[自然言語処理研究会に登録されている方]
研究報告は研究発表会の一週間前に電子図書館と当日閲覧用サイトで公開しま
す．当日は資料をプリントアウトしてご持参いただくか，ご自身のPCにダウン
ロードの上PCをご持参ください．

■情報処理学会電子図書館（情報学広場）
※ご利用にはユーザ登録が必要です．
https://ipsj.ixsq.nii.ac.jp/ej/

■当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

[自然言語処理研究会に登録されていない方]
当日受付で当研究発表会の資料閲覧用にUSBメモリを貸し出します．当日はノー
トPC等をご持参ください．尚，当研究会にご登録いただくことで当研究会の資
料のバックナンバーも含めてすべて電子図書館でご購読いただけます．登録さ
れていない方は，是非この機会に研究会に登録してください．
（登録まで最大3日かかりますのでご留意ください）

★ 受け付けは先着順で行なっております．
締切間際になりますと，申し込み件数によりましては次回の研究会にまわって
頂くようお願いする場合がございます．申し込みを予定しておられます方はな
るべく早めにお申し込み下さい．

★ 締め切り後の発表キャンセルは原則としてできません．
発表申し込み後にキャンセルの必要が生じた場合にはなるべく早くご連絡くだ
さい．発表申込後，学会が提示する原稿提出締め切りまでに原稿が到着しない
場合には，幹事団の判断により発表を取り消しさせていただくこともあります．

★ 論文提出締切後の原稿差し替えはできません．
論文提出締切後は，訂正版のアップロードやウェブ上での配布などの原稿差し
替えは一切できませんので，予めご留意ください．
※ただし正誤表の掲載が可能な場合がありますのでご相談ください．