第222回NL研究発表会

第222回自然言語処理研究発表会

標記の研究発表会はペーパレスで行います（貸し出し用のUSBメモリもご用意しています）。

研究会に登録されている方
研究報告は開催初日の1週間前（＝公知日）に電子図書館と当日用サイト（登録会員用）で公開します。
研究会に登録されていない方
当日受付で資料閲覧用のアカウント情報（URL，ID，PW）をお渡しいたします。
尚、研究会にご登録いただくことで当研究会のバックナンバーも含めて全て電子図書館でご購読いただけます。登録に関しては「研究会に登録する」のページをご参照ください。

開催案内

----------------------------------------------------------------------
第222回自然言語処理研究会 (SIG-NL)         http://www.nl-ipsj.or.jp/
プログラム
----------------------------------------------------------------------

◎ 日程: 2015年7月15日（水）・16日（木）
◎ 会場: 首都大学東京秋葉原サテライトキャンパス（秋葉原ダイビル12F）
◎ 交通アクセス: JR秋葉原駅より徒歩2分
         http://www.tmu.ac.jp/university/campus_guide/access.html#mapakihabara 
◎ 懇親会（事前申込締切 7/1）: https://goo.gl/mWzbY6

◎ 照会先:
＊研究会および会場に関する照会先: 小町 守（首都大学東京）
　E-mail: komachi (at) tmu.ac.jp

======================================================================

プログラム（発表件数14件）

7月15日（水）13:00〜17:30
[13:00〜14:30] 機械翻訳・多言語処理         [3件]
[14:45〜16:15] 機械学習                     [3件]
[16:30〜17:30] 招待講演1                    [1件]
[18:00～]      懇親会

7月16日（木）10:30〜16:30
[10:30〜11:30] 招待講演2                    [1件]
[13:00〜14:30] 英語誤り訂正・穴埋め問題     [3件]
[14:45〜16:15] 知識獲得・応用               [3件]
[16:15〜16:30] クロージング

======================================================================

7月15日（水）13:00〜17:15

■ 13:00〜14:30 機械翻訳・多言語処理 (3件) ■

座長： 小町 守（首都大）

(01) Construction of a Multilingual Annotated Corpus for Deep Sentiment
     Understanding in Social Media

     Yujie Lu, 阪本 浩太郎, 渋木 英潔, 森 辰則（横浜国立大学）

     The surge of social media makes it possible to understand people's
     emotion in different cultures. In this paper, we construct an annotated
     corpus for multilingual sentiment understanding. The annotation is
     developed in a multilingual setting including English/Japanese/Chinese,
     and on a representative data-set including 4 topics (spanning 3 genres,
     which are product, people, and event).To deep understand expression
     mechanism of feeling entailed in the text, we labelled sentimental signal
     words and rhetoric phenomenon in addition to overall polarity. This
     innovative corpus can be a helpful resource for the improvement of
     sentiment classification, cross-cultural comparison etc.

(02) 中間言語モデルを用いたピボット翻訳の精度向上

     三浦 明波, ニュービッグ グラム, サクティ サクリアニ, 戸田 智基, 中村 哲
     （NAIST）

     統計的機械翻訳において，特定の言語対で十分な文量の対訳コーパスが得られな
     い場合，中間言語を用いたピボット翻訳が有効な手法の一つである．複数のピ
     ボット翻訳手法が考案されている中でも，特に中間言語を介する2つの翻訳モデル
     を合成するテーブル合成手法で，高い翻訳精度を得られることが知られている．
     ところが，従来のテーブル合成手法では，フレーズ対応推定時に用いた中間言語
     の情報が「忘却」され，翻訳時には利用できない問題が発生する．本稿では，合
     成時に用いた中間言語の情報も「記憶」し，ピボットの言語モデルを追加の言語
     情報元として翻訳に利用する新たなテーブル合成手法を提案する．また，欧州議
     会議事録による多言語コーパスを用いた実験により，本手法で評価を行った全て
     の言語の組合せで従来手法よりも有意に高い翻訳精度が得られた．本稿に詳細を
     示す．

(03) 訓練データにより適合した統計翻訳最適化戦略

     今村 賢治, 隅田 英一郎（NICT）

     統計翻訳は、対訳コーパスからモデルを学習し、翻訳を行うにも関わらず、訓練
     文を、必ずしも対訳のとおりに翻訳できるとは限らない。 本稿では、この訓練訳
     不一致現象に対して，句に基づく翻訳方式を例にとり、まずクローズドテストの
     エラー分析を行う。本稿の実験では、対訳が完全に一致するものは、6割強しかな
     く、約3割はモデルエラーであることを確認した。 次にモデルエラーに焦点をあ
     て、訓練セットと開発セット両方を使った最適化方式を提案する。提案法は、最
     適化用セットにより異なる素性を最適化する。実験では、開発セットで密な素性
     と疎な素性両方を、クローズドセットを使って疎な素性を最適化したとき、テス
     トセットのBLEUスコアを変えずに、クローズドテストの完全一致率を向上させる
     ことができた。


■ 14:45〜16:15 機械学習 (3件) ■

座長： Graham Neubig（NAIST）

(04) Zero-shot learning における線形回帰の影響

     重藤 優太郎, 新保 仁（NAIST）, 鈴木 郁美（統計数理研究所）, 原 一夫（国立
     遺伝学研究所）, 松本 裕治（NAIST）

     Zero-shot learning の素朴な手法として回帰がある．これまでの研究では，どの
     ような目的関数を設計するかに注目している一方で，回帰の振る舞いについて詳
     細な分析は行われていない．本論文では，線形回帰の振る舞いを分析し，その振
     る舞いが zero-shot learning に与える影響について議論を行う．

(05) ニューラルネットワークによる意味構成とカーネル埋め込みを用いた多層非線形
     類似度学習

     椿 真史, Kevin Duh, 新保 仁, 松本 裕治（NAIST）

     自然言語処理の様々なアプリケーションにおいて，単語や句，文や文書などの意
     味的な類似度を適切に計算することは重要である．このような類似度は，個々の
     単語については単語ベクトル空間を用いて計算することができる．しかし，個々
     の単語から文全体の表現をベクトル空間上でどのように構成し，その類似度をど
     のように計算するかについては自明ではない．そこで我々は，ニューラルネット
     ワークによる意味構成とカーネル埋め込みを用いた多層非線形類似度学習を提案
     する．提案法は，カーネル関数によって写像された高次元空間における表現学習
     であり，文の意味構成にとって適切な単語表現を新たに獲得することを可能にす
     る．我々は，自然言語処理のコンペティションであるSemEval 2014 (Task 1)の文
     の意味的類似度データセットを用いて提案法を評価した．その結果，ベースライ
     ンである線形手法，再帰的ニューラルネットワーク(RNN)，そしてコンペティショ
     ン上位チームをすべて上回り，さらに構造化されたLSTM(Long Short-Term
     Memory)と同程度の性能を達成することに成功した．

(06) 単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類

     張 培楠, 小町 守（首都大学東京）

     年々増加し続けている莫大なウェブデータからのマイニングなど、評価極性分類
     タスクは重要な役割を担っている。しかし、評価極性辞書を用いたりモデルや素
     性を設計・チューニングして機械学習させる従来のアプローチは専門家の高度な
     知識に依存しており、一般化できない点が課題であった。たとえば Nakagawa et
     al. (2010) は係り受け関係といった構文木情報を参照して12種類もの素性テンプ
     レートを作成し、複雑なモデルを設計していた。そこで、本研究では深層学習の
     一手法である多層オートエンコーダを用いて、辞書のような語彙知識や複雑なモ
     デル設計、そして素性エンジニアリングをしなくても高い性能が得られる評価極
     性分類手法を提案する。


■ 16:30〜17:30 招待講演1 (1件) ■

座長： 乾 健太郎（東北大）

(07) [招待講演]  ベイズ的最適化(Bayesian Optimization)の入門と応用-機械学習に
     よる機械学習の実験計画法-

     佐藤 一誠（東大）

     ベイズ的最適化とは、入力から出力を得るコストが高いブラックボックス関数を
     効率的に最適化する手法の総称である。高コストなブラックボックス関数に対し
     て、できるだけ少ない入力のステップでより最適化な出力を得ることを目的とす
     る。例えば化学実験において、ある実験設定を入力として、得られた化合物の良
     し悪しが数値的に計測可能な場合に、より良い実験設定を探索する問題は、ベイ
     ズ的最適化の１つの応用例となる。
     　近年、機械学習アルゴリズムの複雑化にともない、機械学習アルゴリズムの実
     験設定も複雑化しており、ベイズ的最適化によって機械学習の実験を効率化する
     研究が注目を集めている。例えば、word2vecに代表される単語のベクトル表現学
     習では、ベクトルの次元、窓幅、負例サンプリング分布のパラメータ、負例数、
     学習率などさまざまな実験設定があり、これらの効果的な実験設定を効率的に探
     索する必要がある。
     　本発表では、ベイズ的最適化の入門から最先端の話題まで説明し、NLPの実験の
     効率化などについても触れる予定である。


■ 18:00〜 懇親会 ■


======================================================================

7月16日（木）10:30〜16:30

■ 10:30〜11:30 招待講演2 (1件) ■

座長： 岡崎 直観（東北大）

(08) [招待講演] 巨大ネットワーク解析の高速アルゴリズム

     秋葉 拓哉（NII）

     物事の関係が現れるほぼあらゆる場面で，データはグラフとして表現され処理さ
     れる．特に近年では，インターネット及びワールド・ワイド・ウェブの普及に伴
     い，ソーシャルネットワークやウェブグラフを始めとする非常に大規模なグラフ
     データが偏在している．そのため，大規模グラフデータから有用な情報を効率的
     に引き出すことは現代社会の様々な場面において重要な役割を担っている．本講
     演では，基本的なネットワーク解析の手法，小規模グラフデータで用いられてき
     た古典的なアルゴリズム，大規模なグラフの処理に向けた課題とそれに立ち向か
     う現代の研究などについて扱う．


■ 13:00〜14:00 英語誤り訂正・穴埋め問題 (3件) ■

座長： 浅原 正幸（国語研）

(09) 英文穴埋め問題における文章ベクトルと学習データの質の影響

     森 洸樹, 三輪 誠, 佐々木 裕（豊田工業大学）

     語順の情報を組み込んだニューラル言語モデルはTOEICの英文穴埋め問題において
     高い正答率を出すことが報告されている．この手法では文脈外の情報を利用でき
     ないという問題がある．また，学習に用いているWikipediaのデータは，文法的な
     誤りがあるなど，質の良いデータではない可能性がある．これらの問題に対応す
     るために，文章ベクトルによる文脈外の情報の利用とBNCのデータによる学習デー
     タの質の影響について調査したので，これらの結果について報告する．

(10) 英単語タイピングゲームによるスペリング誤りの抽出と分析

     立花 竜一, 小町 守（首都大学東京）

     これまで英語のスペリング誤り抽出に関する多くの研究が行われてきた．それら
     の研究ではTwitterなどのwebサービスからスペリング誤りの候補を抽出する，ク
     ラウドソーシングを利用した入力ログからスペリング誤りの候補を得るといった
     方法でスペリング誤りを収集していた．しかし，そういった研究では抽出したス
     ペリング誤りが何の単語のスペリング誤りかわからない，クラウドソーシングの
     コストがかかるといった難点があった．そこで本研究では英単語タイピングゲー
     ムを利用することで，スペリング誤りに対応する単語が明らかであり，クラウド
     ソーシングのコストもかからないスペリング誤りの抽出手法を提案し，実際に抽
     出したスペリング誤りに関する分析を行う．

(11) ベクトル空間モデルを用いた英文コロケーション誤り訂正

     橋本 捷人（東京大学）, 相澤 彰子（NII）

     文法誤り訂正 (GEC) タスクでは，構文的な誤りは比較的扱いやすいのに対して，
     意味的な誤りの訂正は難しいことが知られている．本研究では，意味的な誤りの
     代表例であるコロケーション誤りに注目して，ベクトル空間モデルを用いた新た
     な誤り訂正手法を提案する．コロケーション誤りと判断される「誤り語」は，訂
     正後の正しい語と意味的に類似しているという観察に基づき，ベクトル空間モデ
     ルから得られる単語の類似度を誤り訂正に用いる．まず， N グラムを用いたモデ
     ルで訂正語の候補を複数選び，次にその候補を誤り語との類似度によって並び替
     える．実験では，注釈付きコーパスを用いて評価を行い，ベクトル空間モデルを
     用いることで，正解率が上昇することを示す．


■ 14:45〜16:15 知識獲得・応用 (3件) ■

座長： 三輪 誠（豊田工大）

(12) 職業ごとの行動に関する知識の収集

     馬緤 美穂, 笹野 遼平, 高村 大也, 奥村 学（東京工業大学）

     本研究では，ある職業の人間が取る行動に関する知識を２つの手法で獲得し，そ
     れらを比較することで，手法ごとの獲得できる知識の特徴について考察する．具
     体的には，職業が主体として明示されたパターンから行動を収集する手法と，
     ソーシャルメディア上でその職業と紐付けられた個人の投稿から行動を収集する
     手法の２つの手法によって知識を獲得し，クラウドソーシングを用いた評価を通
     し双方の知識の特徴を明らかにする．

(13) 大学入試の世界史論述問題における質問応答システムの自動評価に関する一考察

     阪本 浩太郎（横浜国立大学）, 石下 円香, 藤田 彬（NII）, 渋木 英潔（横浜国
     立大学）, 狩野 芳伸（静岡大学）, 三田村 照子（CMU）, 森 辰則（横浜国立大
     学）, 神門 典子（NII）

     現実世界の質問は，質問の核心に至るまでの背景や経緯を複数文にわたって説明
     するなど，比較的シンプルな形式の質問を扱う従来研究と異なる質問状況である
     ことが多い．そういった現実世界における質問応答への第一歩として，NTCIR-12
     では大学入試問題を解くことを目的としたのQALab-2タスクが開始した．本論文で
     は，大学入試の論述問題を解く質問応答の評価手法について検討する．論述問題
     は教科書などの知識源に対する要約と捉えることができるため，教育機関が出版
     する過去問に掲載された模範解答と人手で作製した解答に対する，要約の自動評
     価ROUGEによる結果と考察を行う．また，それらの解答からナゲット分割を人手で
     行った際に現れた問題について考察する．

(14) 言い換え技術の文書レイアウト最適化への応用

     城戸 祐亮（東京大学）, 横野 光, トピチ ゴラン, 相澤 彰子（NII）

     計算機による言語表現の自動言い換え技術は，自然言語処理の分野で近年盛んに
     研究されており，人間の読解の支援や他の処理のための前処理など多様な用途に
     応用されている．本論文では言い換え技術の新たな応用として，文書レイアウト
     最適化問題を取り上げ，有効性を検証する．文書レイアウト最適化問題とは，
     ワープロ・組版ソフトウェアによるテキストや画像などの文書要素の自動配置に
     関する問題であり，出版物の製作のみならずパソコン・スマートフォンでの表示
     などに重要である．我々は，この問題を文書中の問題点の自動検出と表現の言い
     換えによる回避という枠組で捉えることを提案する．提案手法では，自動言い換
     え技術を適用することで文章の長さを変え，さらなる柔軟な調整を可能にする．
     この手法によって英語LaTeX文書からwidowなどの問題点を自動検出し，ナイーブ
     な言い換えによってそれらを回避するシステムを構築し，実験によりこの手法の
     有効性を示す．


■ 16:15〜16:30 クロージング ■

発表募集

----------------------------------------------------------------------
第222回情報処理学会自然言語処理研究会 (SIG-NL) 論文募集
http://www.nl-ipsj.or.jp/

----------------------------------------------------------------------

●日程: 2015年7月15日(水)・16日(木)
●会場: 首都大学東京秋葉原サテライトキャンパス
http://www.tmu.ac.jp/university/campus_guide/access.html
●交通アクセス: JR秋葉原駅より徒歩1分

●発表申込締切: 2015年6月 8日（月）
●原稿締切: 2015年6月22日（月） ※厳守
●原稿ページ数: 1ページ～
　　　　　　　電子化に伴いページ数に制限はありません．
　　　　　　　ただし，20ページを越える場合は事前にご連絡ください．
●発表時間予定: 1件につき30分（発表20分，質疑10分）
　※発表時間の調整について
　従来の一般形式（発表20分，質疑10分）に加えてショート形式（発表10分，
　質疑10分），討議形式（発表10分，質疑討論20分）など，発表者からの
　要望に応じて発表の合計時間を調整したいと思います．アイデアレベルの
　研究の紹介や，研究の詳細まで話したいので時間が欲しい，等のご要望を
　発表申込の備考欄にご記入いただければ，それらを考慮してプログラムを
　編成したいと思います．ぜひご活用ください．

●優秀研究賞
　研究会に投稿された予稿の中から特に優れたものを優秀研究賞として表彰
　する予定です．

●発表申込先: 下記専用サイトよりお申込みください．
　https://ipsj1.i-product.biz/ipsjsig/NL/
　（研究会ホームページからもアクセスできます）

●動画中継
　今回の研究会では，インターネットを利用した研究発表の動画中継を予定
　しております．基本的にすべての発表を動画中継の対象とする予定ですが，
　発表者の希望により対象から外すことも出来ますので，研究発表の当日に
　その旨お伝えください．動画中継の詳細については，追ってアナウンス
　いたします．

●研究会に関する問い合わせ先:
　NL研，および会場に関する照会先: 小町守（首都大学東京）
　E-mail: komachi (at) tmu.ac.jp

●今後の予定
　第223回 2015年9月予定
　第224回 2015年12月上旬予定名工大
　第225回 2016年1月予定
　第226回 2016年5月予定

★研究報告のペーパーレス化
　本研究会はペーパーレスでの開催となり，印刷した研究報告の配布を行い
　ません．また，特許出願の公知日（研究報告の公開日）が従来より1週間
　早まりますので，ご留意ください．

　※自然言語処理研究会に登録されている方
　研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開
　します．当日は資料をプリントアウトしてご持参いただくか，ご自身の
　PCにダウンロードのうえ，ご持参ください．

　情報処理学会電子図書館（情報学広場）
　https://ipsj.ixsq.nii.ac.jp/ej/　（ユーザ登録が必要です）
　当日閲覧用サイト
　http://www.ipsj.or.jp/sig-reports/

　※自然言語処理研究会に登録されていない方
　当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します．
　当日はノートPC等をご持参ください．なお，当研究会にご登録頂くことで，
　本研究会の資料をバックナンバーも含めて電子図書館で購読できます．
　登録されていない方は，是非この機会に研究会に登録してください
　（登録まで最大3日かかりますのでご留意ください）．

★研究会への登録をお勧めします
　年に２回以上の参加を見込まれる方は，研究会に登録される方が（ほぼ）
　お得になります．研究会登録は以下のウェブサイトから行えます．
　http://www.ipsj.or.jp/kenkyukai/toroku.html

★受け付けは先着順で行なっております
　多数のお申し込みを頂いた場合，次回の研究会にまわって頂くよう
　お願いする場合があります．なるべく早めにお申し込み下さい．

★締め切り後の発表キャンセルは原則としてできません
　発表申し込み後にキャンセルの必要が生じた場合は，至急ご連絡ください．
　発表申込後，原稿提出締め切りまでに原稿が到着しない場合には，幹事団の
　判断により発表を取り消しさせていただくこともあります．

★論文提出締切後の原稿差し替えはできません
　論文提出締切後は，訂正版のアップロードやウェブ上での配布などの原稿
　差し替えは一切できませんので，予めご留意ください．
　※正誤表の掲載が可能な場合がありますのでご相談ください．

★研究会幹事団
　主査:
　　　乾健太郎（東北大学）
　幹事:
　　　荒瀬由紀（大阪大学），岡崎直観（東北大学），木村俊也（ミクシィ），
　　　小町守（首都大学東京），森信介（京都大学）
　運営委員:
　　　赤峯享（日本電気），浅原正幸（国立国語研究所），荒牧英治（京都大学），
　　　石野亜耶（広島経済大学），金丸敏幸（京都大学），
　　　小林隼人（Yahoo! JAPAN 研究所），古宮嘉那子（茨城大学），新里圭司（楽天），
　　　鈴木祥子（日本アイ・ビー・エム），数原良彦（リクルートホールディングス），
　　　高橋哲郎（富士通研究所），高村大也（東京工業大学），堂坂浩二（秋田県立大学），
　　　徳永拓之（Preferred Infrastructure），西川仁（日本電信電話），
　　　二宮祟（愛媛大学），橋本力（情報通信機構），藤田早苗（日本電信電話），
　　　牧野貴樹（グーグル），松崎拓也（名古屋大学），
　　　ミハウ・プタシンスキ（北見工業大学），宮尾祐介（国立情報学研究所），
　　　村脇有吾（九州大学），若木裕美（東芝），
　　　Kevin Duh（奈良先端科学技術大学院大学）