第226回NL・第111回SLP合同研究発表会

第226回自然言語処理・第111回音声言語情報処理合同研究発表会

標記の研究発表会はペーパレスで行います(貸し出し用のUSBメモリもご用意しています)。
  • 研究会に登録されている方
    研究報告は開催初日の1週間前(=公知日)に電子図書館当日用サイト(登録会員用)で公開します。

  • 研究会に登録されていない方
    当日受付で資料閲覧用のアカウント情報(URL,ID,PW)をお渡しいたします。
    尚、研究会にご登録いただくことで当研究会のバックナンバーも含めて全て電子図書館でご購読いただけます。登録に関しては 研究会に登録する」のページをご参照ください。

開催案内

 第226回自然言語処理研究会 第111回音声言語情報処理研究会 合同研究発表会

============================

自然言語処理研究会 (SIGNL)     http://www.nl-ipsj.or.jp/
音声言語情報処理研究会 (SIGSLP) http://sig-slp.jp/

============================
開催概要

・日程:2016年5月16日(月)17日(火)
・会場:東京工業大学 大岡山キャンパス 情報理工学院大会議室
大岡山西8号館(E)10階(大岡山東・西・南地区地図19番の建物)
http://www.titech.ac.jp/maps/ookayama/ookayama.html
・交通アクセス:東急電鉄大岡山駅より徒歩5分

============================
懇親会

当日は懇親会を予定しておりますので、ぜひご参加ください。

・日時:2016年5月16日(月)18時30分〜
・会場:東京工業大学 大岡山キャンパス 大岡山第1食堂
大岡山大学食堂1F(大岡山東・西・南地区地図24番の建物)
http://www.titech.ac.jp/maps/ookayama/ookayama.html
・申込:https://goo.gl/Cn2Du7
・申込締切:2016年5月1日(日)
・会費:4,000円前後(予定)

============================
照会先

・NL研および会場に関する照会先: 西川仁(東京工業大学)
E-mail: hitoshi (at) cs.titech.ac.jp
・SLP研: 峯松信明(東京大学)
E-mail: mine (at) gavo.t.u-tokyo.ac.jp

============================
プログラム(発表件数16件)

5月16日(月)10:20-18:10
[10:20-10:30] オープニング
[10:30-12:00] 学生セッション1 SLP (音声認識,対話,翻訳) [3件]
[13:30-14:30] 学生セッション2 SLP (情報検索)       [2件]
[14:45-16:45] 学生セッション3 NL (自然言語処理)      [4件]
[17:00-18:00] 招待講演1                  [1件]
[18:00-18:10] 学生奨励賞受賞式
[18:30-]    懇親会

5月17日(火)10:50-16:20
[10:50-12:00] 一般セッション1 (言語解析)         [2件]
[13:30-14:30] 招待講演2                  [1件]
[14:45-16:15] 一般セッション2 (言語処理応用)       [3件]
[16:15-16:20] クロージング

----------------------------
5月16日(月)

[10:20-10:30] オープニング

音声言語情報処理研究会 (SIG-SLP) 新主査からのご挨拶
峯松 信明 (東京大学)

[10:30-12:00] 学生セッション1 SLP (音声認識,対話,翻訳) [3件]

(01) 話し言葉音声認識における非言語情報を考慮したRNN言語モデル
外山 翔平,齋藤 大輔,峯松 信明 (東京大学)

音声認識において、Recurrent Neural Network言語モデルによってn-gram言語モデルを補完することにより、認識精度が改善されると言われている。 さらに、RNN言語モデルに対して、単語の品詞や発話のトピックなどの付加的な情報を与えることで、言語モデルを発話に適応させる研究も数多くなされている。 ところで、音声には話者性や発話状況といった非言語情報が含まれており、このような情報は話者の使う単語に影響を与えると考えられる。 そこで本研究では、話し言葉音声認識において、発話を音声処理して得られる非言語情報をRNN言語モデルに組み込み、発話に適応させるモデルを提案する。 また、日本語話し言葉コーパスを用いた音声認識実験において、提案手法よってパープレキシティが改善されることを示した。

(02) 対話を通じた未知語獲得に向けた暗黙的確認の提案
大野 航平, 武田 龍 (大阪大学), ニコルズ エリック, 中野 幹生 ((株)ホンダ・リサーチ・インスティチュート・ジャパン), 駒谷 和範 (大阪大学)

対話システムにおいて,自らの知識にない単語(未知語)への対応が課題である.質問により未知語を獲得する手法は提案されているが,雑談対話において質問を逐一行うことは唐突である.本発表では,雑談対話中に現れた未知語のクラスを対話中に獲得するための暗黙的確認の生成について述べる.まず,未知語の表記からその所属クラスを推定する.推定を最下位クラスと中間クラスとの2つのレベルで行い,その結果から暗黙的確認を生成することで,対話を継続させつつ知識を獲得することを狙う.この際,推定結果の正誤の判定は,推定時に得られる確信度に対するしきい値処理により行うが,このしきい値は実験により得られたデータをもとに決定した.また,暗黙的確認に対するユーザの応答を被験者実験により収集し,分析を行った.

(03) 対象ドメインの高頻出句に対する人手対訳追加による講義音声翻訳の検討
後藤 統興, 山本 一公, 中川 聖一 (豊橋技術科学大学)

自動音声認識と統計的機械翻訳を組み合わせた、英語音声を日本語文書へ翻訳する音声翻訳システムについて、統 計的機械翻訳の改善を行った。単語群を句とし、翻訳対象ドメインの英語書き起こしから頻出する句を抽出した。抽出の手法としてngram単位で抽出する手法と構文解析を用いて抽出する手法について比較を行った。抽出した句のうちテストデータに出 現するものに対して人手によって翻訳を行うことで、対象ドメインに頻出する英日の頻出フレーズ対を作成した。作成した英日フレーズ対を翻 訳モデルへ学習させることで対象ドメインへの適応を行った。学習の手法として学習コーパスとして追加する手法とフレーズテーブルに追加す る手法を比較した。性能の比較を行うために評価基準BLEUを用いた。結果として書き起こしの英語文を日本語へ翻訳した結果、構文解析によって抽出し、作成した英日フ レーズ対をフレーズテーブルに追加する手法においてBLEU10.5を得ることができ、ベースラインのモデルのBLEU10.2を 上回った。また、英語を習熟した評価者三名に評価を依頼し、有効性を確認した。

[12:00-13:30] 休憩

[13:30-14:30] 学生セッション2 SLP (情報検索) [2件]

(04) 非構造化文書からの用語検索における用語候補のリスコアリングの検討
森田 直樹 (龍谷大学), 南條 浩輝 (京都大学), 馬 青 (龍谷大学)

意味を表す文書表現(説明文) を入力として与え, その説明文が示す語句(用語) を検索する用語検索を研究している.これまでに,非構造化文書からの検索法を 提案しているが,用語候補の上位に適切でない語が多数出力される問題があっ た.本論文では,出力された各用語候補に対して説明文との類似度を推定し,そ れに基づいて用語候補を並び替える手法を提案する.提案手法により,平均逆順位(MRR)が向上することを示す.

(05) 音声中の検索語検出のための回帰結合ニューラルネットワークを用いた正解音素推定
澤田 直輝, 西崎 博光 (山梨大学)

Recurrent Neural Network(RNN)を用いた複数の音声認識システムの結果から音素誤りパターンを学習した音素誤り推定器と,この結果を利用した音声中の検索語検出について提案する.音素誤り推定器はLong Short-Term Memory(LSTM)で学習し,正解音素の推定を行う.LSTMに音声認識システムの出力パターンを学習させることで,正しい音素を予測する.この提案手法で正解音素を推定した結果,音素認識率がLVCSRのN-bestと比較して改善した.さらに,提案手法をSTD タスクに適用した.結果,我々が以前提案している条件付き確率場(CRF) の性能を大きく改善することができた.

[14:30-14:45] 休憩

[14:45-16:45] 学生セッション3 NL (自然言語処理) [4件]

(06) Integrating Word Embedding Offsets into the Espresso System for Part-Whole Relation Extraction
Van-Thuy Phi, Yuji Matsumoto (Nara Institute of Science and Technology)

Part-whole relation plays an important role in many domains. Among approaches to addressing part-whole relation extraction problem, the Espresso bootstrapping algorithm has proved to be effective by significantly improving recall while keeping high precision. It is a popular bootstrapping-based method that uses a set of seed instances to induce patterns for the target relation and then acquire new instances. In this paper, we first investigate the effect of using fine-grained subtypes and careful seed sets on the performance of extracting part-whole relation. Then, we improve the Espresso bootstrapping algorithm for part-whole relation extraction problem by integrating word embedding approach into its iterations. This ranker component uses embedding offset information between instance pairs of part-whole relation. The experiments show that our system achieved a precision of 84.9% for harvesting instances of part-whole relation, and outperformed the original Espresso system.

(07) 分散表現による語義曖昧性解消の領域適応
鈴木 翔太, 古宮 嘉那子, 佐々木 稔, 新納 浩幸 (茨城大学), 奥村 学 (東京工業大学)

本稿では、語義曖昧性解消の領域適応に分散表現の素性を利用する。特に、大規模データから作成した分散表現を素性として追加する手法はこれまでも行われていたが、領域適応に特化してターゲットデータやソースデータから分散表現を作成する実験は行われてこなかった。そのため、本研究では、このようなデータの種類に着目して、どのようなデータから分散表現を作成するのが領域適応において効果的であるかを検証する。

(08) 様々な分野における対訳コーパスを用いた構文解析器の自己学習効果の検証
森下 睦, 小田, 悠介, Neubig Graham, 吉野 幸一郎, 中村 哲 (奈良先端科学技術大学院大学)

本稿では,対訳コーパス,統語ベース翻訳器,機械翻訳の自動評価尺度を用いて, 自己学習データを選択した上で構文解析器の自己学習を行う手法を,様々な分野を対象に適用しその効果を検証する. 本手法では構文木データを新たに人手で作成する必要が無く,対訳コーパスのみを用いて構文解析器を向上させられる利点がある. 実験の結果,11種類中5種類のドメインにおいて,本手法が自己学習を行わない構文解析器や構文解析の1-bestを用いた従来の自己学習手法よりも構文解析精度を有意に向上させることが分かった. また,提案手法による性能向上が最も期待できるドメインの特徴について調査した. なお,この調査で構築した言語資源については一部公開する予定である.

(09) 半自動学習データ構築による固有表現認識の改善
澤山 熱気 (奈良先端科学技術大学院大学), ニコルズ エリック, 中野 幹生 ((株)ホンダ・リサーチ・インスティチュート・ジャパン), 高橋 達二 (東京電機大学)

自分の好みに近い料理の提示や,病状と関連する病気の細かな情報の提示をする対話システムや情報検索システムの構築には,レシピ,レストラン情報,医療などの特定ドメインを対象とした言語処理技術が必要である.そのような技術のベースとして,料理名や疾病名など,対象とするドメインに固有の固有表現を高い精度で認識できる固有表現認識器が必要である.固有表現認識(Named Entity Recognition,NER)の認識精度の向上に最も効果的なのが,正解ラベルの付いた追加の学習データを大量に用意することであり,高いコストがかかる.本稿では,学習データ構築コストを削減するため,予め文集合から対象ドメインと関連のある文を抽出して固有表現認識をおこなう.その後,固有表現認識された文を,人間からのフィードバックを用いてフィルタリングし,半自動的に固有表現認識モデルの追加学習データを構築する.これによって,特定ドメインの固有表現認識の構築のための,より全体的な枠組みを提案し,一般的な固有表現認識や特定ドメインの固有表現認識に必要なコストを削減することを目的とする.

[16:45-17:00] 休憩

[17:00-18:00] 招待講演1 [1件]

(10) 人とわかり合える音声対話ロボットの実現を目指して
駒谷和範 (大阪大学)

近年,携帯電話上のアプリや一般販売されている人型ロボットなど,人間の音声による問いかけに対して応答を返すシステムが,世に多く出回っている.ここで,人間の音声による問いかけは,言語情報のみを伝えるものではなく,同時にいくつかの行為を含むものである.このため,音声認識結果の文字列のみをシステムへの入力とするのは不十分であり,より包括的な発話の理解が必要である.また,対話は二者の共同行為として成立するものであることから,対話を成り立たせるためには,システムへの入力を受動的に解釈するだけでなく,もう一方の当事者であるユーザも含めた系で問題を考える必要がある.さらには,そもそもなぜ人はシステムに話すのか,システムに何を期待して話しかけるのかについても考える必要がある.このような考え方に基づいて行ってきた研究についても紹介する.

[18:00-18:10] 学生奨励賞受賞式

[18:30-] 懇親会

----------------------------
5月17日(火)

[10:50-12:00] 一般セッション1 (言語解析) [2件]

(11) 多言語述語項構造ベクトル表現の学習
宇野 真矢, 柴田 知秀, 河原 大輔, 黒橋 禎夫 (京都大学)

近年,単語の意味をベクトルで表現する取り組みが広く行われており,多言語で単語ベクトルを学習する手法も提案されている.これらの手法においては,単語,特に述語の意味に曖昧性が大きいことが問題となるが,述語項構造のような単語より大きな単位で学習すれば曖昧性を解消することができる.本論文では,述語項構造のベクトル表現を言語横断的に学習する手法を提案する.この手法では,対訳コーパスを用いて多言語の単語ベクトルを学習する手法を拡張し,多言語の述語項構造ベクトルを学習する.評価実験では,学習された述語項構造ベクトルを用いて,日英中3言語で述語項構造の対応付けを行い,単語ベクトルに基づくベースラインと比べて高い精度を達成した.

(12) 無限木構造隠れMarkovモデルによる階層的品詞の教師なし学習(ロング発表)
持橋 大地 (統計数理研究所), 能地 宏 (奈良先端科学技術大学院大学)

隠れMarkovモデル(HMM)は自然言語処理の教師なし学習および半教師あり学習において基本的なモデルであり、状態を1..Kの整数として離散的に表現する。しかし、たとえば品詞推定においては、実際の品詞は名詞-固有名詞-地名のように階層化されており、こうした階層は通常のHMMでは学習することができない。本研究ではこのために、木構造Stick-breaking過程(Adams+ 2010)をさらに無限の木構造上で階層化することで、無限の深さと幅を持つ隠れた木構造上での状態遷移と、階層的な出力確率を持つ無限木構造隠れMarkovモデル(ITHMM)を提案する。これにより、原理的に無限の深さと無限個の分岐を持つ木構造上で、データに合わせた適切な階層を学習することが可能となる。英語および日本語の標準的なコーパスで実験を行った。提案法は自然言語処理に限らず、情報科学一般に適用できる隠れMarkovモデルの本質的な拡張であり、PCFGなど隠れ状態を持つ多くのモデルへの適用が期待できる。

[12:00-13:30] 休憩

[13:30-14:30] 招待講演2 [1件]

(13) 大規模コーパスに基づく言語分析~日本語二重目的語構文の基本語順の分析を例に~
笹野遼平 (東京工業大学)

言語学の分野において、何らかの言語現象の分析が行われる際、実例に基づく容認性を根拠とし議論が展開される場合は多い。しかしながら、用いられる用例の規模は数個から数百個程度であることが一般的であり、語の組み合わせが重要となる場合など、非常に多くの用例を考慮することが必要な現象の論証には不十分である場合も多いと考えられる。一方、自然言語処理の分野では、統計情報を獲得するために、百億文を越える規模のコーパスを使用することも一般的となってきており、このような規模のコーパスを言語現象の分析に用いることで、従来のアプローチでは難しかった、現象の一般的・網羅的な分析が可能となる場合があると考えられる。本講演では、日本語二重目的語構文の基本語順の分析を例に、大規模コーパスに基づく言語分析の試みを紹介する。

[14:30-14:45] 休憩

[14:45-16:15] 一般セッション2 (言語処理応用) [3件]

(14) NLTKのタグ付けに対する修正及び文法情報の付加
山岡 幸高 (九州大学)

機械翻訳,特に英日翻訳がうまくいっていないと言われて久しい.タグ付けの自動化がうまくいっていないことが主な原因である.また,高い精度で文法情報を付加するシステムもない.そこで,まずNLTKでタグ付けをし,その誤りを自作の構文解析機で修正し,文法情報を付加することを考えた.その結果,タグ付けの制度に著しい向上が見られた.また学校文法による解説の付加と文型表示にも成功した.

(15) An Over-generator of Questions: Towards Automatic Question Generation in Portuguese Language
ロペス ジョシマール エルミニオ, 武井 由智 (長岡技術科学大学)

This research addresses the question generation system by automating the generation of a specific type of assessment. For QG systems, the one depending on overgenerate and rank approach has recently been proposed by M. Heilman and A. Smith, 2009 for English Language. However, such systems are still open in Portuguese Language. This research addresses the Portuguese question generation challenge by implementing a system that will automate the generation of questions. We mainly focus on generating factual questions from Portuguese materials. For QG in Portuguese, we use a rule-based approach to prohibit the generation of unwanted questions; we define 11 rules which are applied to the structural analysis tree of parts of speech and then processed by a handful of regular expressions for transformations. We make basic statistical analysis on the questions overgenerated by the system, which, in turn, will be subject to ranking.

(16) 表形式のトピックモデルとその数値単位推定への応用
吉田 稔, 松本 和幸, 北 研二 (徳島大学)

表形式中の数値表現について単位が省略されている場合に、その単位を推定するための手法を提案する。Wikipedia表形式中の、数値のみを含むセルを対象に、一行目のセル等の「周辺文脈」を利用し、適切な単位を推定する。また、表形式の外側の文章を利用するために、表形式と文章を同時にモデル化するためのトピックモデルを提案し、トピックの推定結果を単位推定に利用することで精度の向上を図る。

[16:15-16:20] クロージング

発表募集

第226回 自然言語処理研究会 (SIG-NL)
第111回 音声言語情報処理研究会 (SIG-SLP)
合同研究会 論文募集

日時:2016年5月16日(月)・17日(火)

会場:東京工業大学大岡山キャンパス・情報理工学研究科大会議室
大岡山西8号館(E)10階(大岡山東・西・南地区地図19番の建物です)
http://www.titech.ac.jp/maps/
http://www.titech.ac.jp/maps/ookayama/index.html

【動画収録・中継について】

今回の研究会では,インターネットを利用した研究発表の動画配信を行う予定です.
基本的にすべての発表を配信する予定ですが,発表者の希望に応じられますので,原稿申し込み時に備考欄にその旨お書きください.また,研究発表の当日に変更することも可能です.


情報処理学会 音声言語情報処理研究会(SIG-SLP) または 自然言語処理研究会(SIG-NL) に
登録されていない方は、研究会参加費が必要です.

合同企画:学生セッション

SIG-NLとSIG-SLPの合同企画として,学生セッションを開催いたします.卒業論文,修士論文でまとめられた研究成果などが発表されます.優秀な論文発表には,学生奨励賞を進呈し表彰します.
なお,同賞の受賞対象者は,発表時に情報処理学会学生会員で,かつ,音声言語情報処理研究会または自然言語処理研究会の登録会員といたします.
情報処理学会学生会員の方は,研究会登録費無料制度をご利用いただけます.詳細は下記をご覧ください.
http://www.ipsj.or.jp/kenkyukai/student.html
 

申込締切:4月4日(月)
原稿締切:4月18日(月)
原稿ページ数:1ページ以上
電子化にともないページ数に制限はありません.
※ただし20ページを越える場合は事前にご連絡ください.

原稿仕上がり枚数 6〜8ページ

 発表申込方法
NL研究会へお申込みの方: https://ipsj1.i-product.biz/ipsjsig/NL/
SLP研究会へお申込みの方: https://ipsj1.i-product.biz/ipsjsig/SLP/
※研究発表のインターネットを利用した動画中継を行う予定です.
※必要に応じて,以下の質問の答えを変更して下さい(YesかNoでお願いします).
学生セッションでの発表を希望: No
当日の発表の動画配信可否: Yes
※変更しない場合は規定の設定(学生セッション希望せず,動画配信可)となります

照会先:(☆を@に直してください)
NL研究会 西川仁(東京工業大学)
E-mail: hitoshi☆cs.titech.ac.jp
SLP研究会 峯松信明(東京大学)
E-mail: mine☆gavo.t.u-tokyo.ac.jp


★ 研究会登録のご案内
年に2回以上の参加を見込まれる方は登録される方が(ほぼ)お得になります.
研究会登録は http://www.ipsj.or.jp/kenkyukai/toroku.html から行えます.