第256回NL研究発表会

第256回自然言語処理研究発表会

本研究発表会は、現地開催(主)とオンライン開催(副)を併用するハイブリッド開催で行う予定です.
※感染状況等により,オンラインのみに変更となることがあります.

参加を希望される方は,情報処理学会マイページから参加申込をお願いいたします .
詳細は決まり次第,本ページに掲載いたします.
※当日会場で参加される方も,現地での参加申込受付は行いませんので事前にマイページからお申込みをお願いいたします.

参考資料:全国大会時のZoom利用の手引き

 

参加申込のご案内

第256回 情報処理学会 自然言語処理(NL)研究発表会 参加募集

●日程: 2023年5月27日(土) 13:30-17:35
   2023年5月28日(日) 10:00-15:45
●会場: 現地+オンライン(Zoom)のハイブリッド
現地会場: 北海学園大学 豊平キャンパス 6号館 3階 C30教室
https://www.hgu.jp/about/toyohira-campus.html

● 詳細情報
https://sites.google.com/sig-nl.ipsj.or.jp/sig-nl/%E7%A0%94%E7%A9%B6%E7%99%BA%E8%A1%A8%E4%BC%9A/NL256

●参加申し込み
情報処理学会マイページの「会員メニュー」->「イベント一覧・申込」より参加申込をお願いします。
非会員の方もマイページを開設してお申し込みください。

●現地での感染防止対策について
マスク着用は任意ですが、近距離での会話を伴う場合は着用を推奨します。
三密回避、換気、手洗いに努めて頂ければと思います。

●問い合わせ先:
吉永 直樹(東京大学)
E-mail: ynaga ?at? iis.u-tokyo.ac.jp  

プログラム

プログラム
5月27日(土)
13:30-13:40 オープニング
13:40-14:40 [招待講演]
15:00-16:30 [3件] 語彙・言語理解
16:50-17:35 [招待講演]
5月28日(日)
10:00-12:00 [4件] 言語生成
13:30-15:30 [4件] 言語処理応用
15:30-15:45 クロージング
————————————————————-

※若手奨励賞の対象者には著者名の前に「○」を付けています.

一日目
[13:40 - 14:40] 招待講演
[1] ユーモアを科学する ー人間を超える面白いユーモアの生成は可能か?ー
荒木 健治(北海道大学)

現在広く普及しているスマートフォンやAIスピーカー上の対話エージェントは,雑談システムとしての能力が不十分であり,話していて楽しいシステムとはなっていない.この問題を解決するためには,ユーモア処理の高度化が必須である.その第一段階として,67,000
件の駄洒落データベースの開発を行い,面白さのスコアの付与を行った.駄洒落データベースはHP上で公開され広く利用されている.また,駄洒落データベースを用いて,面白さのスコアの平均値の推移,評価者ごとのスコアの分布,評価者間の一致度,平均スコアの上位のものなどの分析を行った.この結果,駄洒落の面白さの感じ方には個人差が大きいことや対話形式で表現されている場合に面白さを感じることなどが明らかとなった.これらのことより文脈情報,背景知識が駄洒落の面白さの感じ方の大きな要因となっていることが確認された.さらに,駄洒落データベースを用いた駄洒落生成システムの開発を行い,性能評価実験を行った.現在,Twitterを対象として駄洒落データベースに収録された駄洒落の検索を行い文脈情報を収集し,文脈情報が付与された駄洒落データベースの開発を進めている.本講演では,これまで行った一連のユーモア処理に関する研究の概要を述べた上で,駄洒落データベースの構築方法,駄洒落生成システムの性能評価,駄洒落データベースに文脈情報を付与する方法などについて述べ,ユーモア研究について考察する.

[15:00 - 16:30] 語彙・言語理解
[2] Zero-Shot Cross-Lingual Transferの評判分析における多言語モデルとMT +
単言語モデルの性能比較
〇佐藤 匠真,新納 浩幸(茨城大学)

多言語モデルを利用した Zero-shot Cross-Lingual Transfer とは言語A の訓練データを利用して,多言語モデルを
fine-tuning し,その fine-tuning したモデルを利用して言語B のテストデータを解析する技術である.一方、言語A
から言語B の翻訳機と言語 B の単言語モデルがあれば,言語A の訓練データを言語B
に翻訳し,その翻訳したデータから言語B の単言語モデルをfine-tuning できる.そしてそのfine-tuning
したモデルを利用して,言語B のテストデータを解析できる.このように翻訳機が利用できれば単言語モデルであっても,Zero-shot
Cross-Lingual transfer
と同等の処理が可能になる.本論文では言語Aを英語,言語Bを日本語,またタスクを評判分析として,上記2つの手法(多言語モデル
vs MT +
単言語モデル)の性能比較を行った.実験の結果,多言語モデルよりもMT+単言語モデルの性能の方が高かった.

[3] 日本語を母語とする英語学習者の英語語彙数調査
藤田 早苗,小林 哲生,服部 正嗣(NTT コミュニケーション科学基礎研究所)

我々は、日本語を母語としTOEICスコアを提出可能な大学生約120人を対象に、
12000語以上の英単語について、知っているかどうかの調査を実施した。
TOEICスコアと語彙数の関係や、NTTで構築している日本人英語学習者にとっての英単語親密度データベースとの関係を分析する。

[4] 非構造知識検索を用いた自己適応型固有表現認識
〇西田 光甫(NTT 人間情報研究所 / 東京大学),吉永 直樹(東京大学 生産技術研究所),西田
京介(NTT 人間情報研究所)

固有表現認識(NER)は,人名や組織名のようなドメインに依存しないエンティティだけでなく,政治ドメインにおける選挙や音楽ドメインにおけるアルバムなど,目標ドメイン固有のエンティティを抽出・分類するために活用できる.しかしながら,個々のユーザが自身の興味のある目的ドメインにおいて,高精度のNERを行うために必要な大規模な訓練データや構造化された知識ベースを構築し,高精度なNERを実現することは難しい.そこで本稿では,生のテキスト集合である非構造知識から,個々の入力文に対して必要な知識テキストを都度検索する,自己適応型固有表現認識を提案する.提案モデルは,まず入力のみから固有表現抽出を行ったのち,確信度の低いラベルを含むエンティティをクエリとした知識検索を行い,知識を用いた予測によって元の予測を改善する2段階のモデルである.CrossNERデータを用いた評価実験により,提案モデルがベースラインをF1で2.35ポイント上回ることを確認した.

[16:50 - 17:35] 招待講演
[5] 社会の変化を探索するためのソーシャルビッグデータ可視化
伊藤 正彦(北海道情報大学)

選挙、スポーツイベント、事故・災害など、様々なイベントが毎日のように発生し、人々の活動や関心に影響を与えている。ソーシャルメディアやセンサーデバイスから得られる時間情報と空間情報を含むソーシャルデータなどから、人々の行動や考えの変化を分析する情報可視化の事例を紹介する。

二日目
[10:00 - 12:00] 言語生成
[6] English-Japanese multimodal machine translation using the CLIP model
〇崔 少東,Ying Xinyan,新納 浩幸(茨城大学)

Multi-modal machine translation is a cutting-edge technology that
combines computer vision and text translation, aiming to enhance
translation quality. However, recent multi-modal machine translation
models often focus solely on visual features. To address this
limitation, we propose a feature extraction method based on the CLIP
pre-trained model. Our approach utilizes a transformer model that
integrates label features and text features, and then employs a visual
transformer to process visual features. We conducted experiments on the
Flickr30kEnt-JP English-Japanese multi-modal machine translation
dataset, which provided compelling evidence for the effectiveness and
soundness of our proposed solution.

[7] 日本語 CommonGen に対する ChatGPT の性能調査
〇鈴木 雅人,新納 浩幸(茨城大学)

CommonGen
は入力された複数個のキーワードに対して、それらキーワードが含まれる文を生成する生成型の常識推論タスクである。我々はこれまで日本語CommonGen
のデータセットと日本語 CommonGen に対する T5 モデルを構築し、本タスクに対する課題や問題点を考察してきた。一方、昨年の11月に
OpenAI が発表した ChatGPT
はプロンプトの工夫次第で様々なタスクをこなせる非常に強力な大規模言語モデルである。本論文では我々が構築した日本語CommonGen
のデータセットに対するChatGPT の性能を評価する。実験の結果、ChatGPT (GPT-3.5
版) は、我々が構築した T5 モデルと同等程度の性能しか示せなかったが、ChatGPT (GPT-4
版) は非常に高い性能であった。この実験から ChatGPT
の常識推論能力について考察する。

[8]
意味と表層の類似度を制御した言い換えによるデータ拡張を用いた事前学習済みモデルの性能改善
〇小笠 雄也(大阪大学),梶原 智之(愛媛大学),荒瀬 由紀(大阪大学)

言い換え生成技術は様々な自然言語処理タスクのデータ拡張に応用されてきた.データ拡張においては,意味的な類似度が高くかつ多様な言語表現を提供する言い換えが有益である.しかし原文からの表層の変化が大きくなるにつれて意味を保持することが難しいため,このような言い換え文の生成は困難である.さらにデータ拡張を適用するタスクによっても,望まれる意味・表層の類似度は異なる.そこで本研究では意味類似度が高く表層類似度が低い言い換えを高品質な言い換えと定義し,意味・表層類似度を制御可能な言い換え生成手法を実現する.具体的にはデコーダにサンプリングを適用した折り返し翻訳により,多様な品質の言い換え候補を大量に自動生成する.生成した候補の中から高品質な言い換え文対を抽出し,意味・表層類似度をタグとして付与して事前学習済み系列変換モデルをfine-tuningすることで,類似度制御可能な言い換えモデルを構築する.提案手法によるデータ拡張を事前学習済み言語モデルの性能改善タスクに適用し,その有効性を検証した.対照学習を行う手法,fine-tuning前に中間タスクによる追加訓練を行う手法,それぞれにおいてデータ拡張により既存手法の性能を改善することが明らかとなった.

[9] 系列変換モデルにおける語彙制約を用いた複数出力候補の統合
〇宮野 稜大(大阪大学),梶原 智之(愛媛大学),荒瀬 由紀(大阪大学)

機械翻訳では生成文を後編集することで品質を改善するAutomatic Post-Editing (APE)
が用いられるが,構築コストの高い人手タグ付きコーパスを要するため,他の言語生成タスクに適用するハードルは高い.本研究ではAPEに着想を得つつ,人手によるコーパスを必要としない手法を提案する.具体的には,系列変換モデルのNベスト出力を用いて正誤予測を行い,誤りと予測された語を負の制約,正しいと予測された語を正の制約として,語彙制約を適用したデコードを再び行う.これにより,Nベスト出力に含まれていた正しい語を含みつつ,誤りを避けた文を生成する.言い換え生成および要約タスクにおける提案手法の有効性を評価する実験を行った.その結果,いずれのタスクにおいても提案手法はビームサーチによる文生成を上回る性能を達成することを確認した.

[13:30 - 15:30] 言語処理応用
[10] 引用文献に着目した情報科学論文からのデータセットの抽出
〇大嶋 悠司(奈良先端科学技術大学院大学 / 株式会社メルカリ),進藤 裕之,渡辺
太郎(奈良先端科学技術大学院大学)

情報科学分野では論文発表ペースの増加に伴い,提案された手法の性能や評価に用いるデータセットを把握し続けることが困難になっている.
そのため実験情報(実験に使用されたデータセット,実験のタスクと評価指標及び性能)を集約した知識ベースの構築が手法の比較や検索に有用である.
しかし,人手での実験設定の抽出や知識ベースの構築には限界があるため,実験情報の自動抽出とその紐付けが盛んに研究されている.
これまでの研究では,実験情報の種類が予め固定されており,対象の論文がその実験情報のうちどれに紐づくかを推定していた.
そのため新規のデータセットを含む実験情報に紐付けることができないが,実際には新規のデータセットは頻繁に提案されるためその扱いが課題であった.
そこで本研究では,実験情報に含まれるデータセットが引用文献に含まれることに着目し,引用文献の中から適切な文献を選択することでデータセットを同定するというアプローチを用いる.
このアプローチによって,新規のデータセットであっても実験に使用されたデータセットとして正しく紐付けられることを示した.

[11] 大規模言語モデルを活用した顧客応対業務自動化の実現可能性検証
〇有留 一博(横浜市立大学),辰巳 守祐,白水 優太朗,藤本 拓(NTTドコモ)

顧客応対業務は,業種業態問わず数多くの企業で重要性が増しているが,人的コストが多くかかるという課題がある.顧客応対のうち,本研究では,Twitterでの顧客応対自動化に焦点を当て,その実現可能性を検証する.言語モデルの大規模化が進む動向を踏まえ,学習コストの低いPrefix-Tuningを事前学習済みの大規模言語モデルに施し,実験を行った.In-context
learningと比較して,人間の表現に近い応答文が生成可能であることを主観評価と自動評価によって示した.

[12] 多次元項目反応理論による短歌の評価傾向の分析
〇川島 寛乃(慶應義塾大学),持橋 大地(統計数理研究所)

短歌は日本の伝統的な詩形の一つであり,これまで文学としての研究は行われてきているが,その評価について定量的な研究は行われていない.そこで本研究では,複数の短歌について複数の評価者が「良い--悪い」および「好き--嫌い」の軸でK段階の評価を付与した短歌評価データに対して,多次元の項目反応理論に基づいて,短歌の潜在座標および各評価者の評価傾向を分析する手法を提案する.多次元項目反応理論における潜在変数の次元数を変化させることで,短歌の評価に影響する要因の分解や,作者ごとの短歌の傾向の分析,評価者のグループ間の相違を統計的に比較することが可能になった.

[13] 論文テキストを用いた化合物探索の漸進的効率化
〇塚越 駿(名古屋大学),岩田 和樹(名古屋工業大学),花田 博幸(理化学研究所),笹野
遼平(名古屋大学),竹内 一郎(名古屋大学 / 理化学研究所),魚住 信之(東北大学),有澤
美枝子(九州大学)

創薬や材料化学をはじめとする多くの分野で目的の性質を満たす化合物の探索が日常的に行われている.
しかし,実際の化合物を用いた性質の調査には大きなコストと時間が必要であり,化合物探索の効率化のために有望な化合物を選定する技術が求められている.
本研究では,論文テキストから化合物の物性を予測することで,有望な化合物を選定し,それら少数の化合物のシミュレーションにより得られたデータをもとに物性予測モデルを改善することで,化合物探索を漸進的に効率化するシステムを提案する.

===================================

★幹事団
主査:
須藤 克仁 奈良先端科学技術大学院大学
幹事:
井之上 直也 北陸先端科学技術大学院大学
内田 ゆず 北海学園大学
佐藤 敏紀 LINE株式会社
萩行 正嗣 株式会社ウェザーニューズ
吉永 直樹 東京大学
吉野 幸一郎 理化学研究所

発表募集


原稿締切厳守 !

  • 原稿締切日の24時を過ぎるとシステムに投稿が出来なくなり、発表も取り消しとなりますのでご注意ください。
  • 原稿締切までは何度でもご自身でアップロード可能です(締切後は、原稿の差替え(再アップロード)、発表の取り消しもできませんのでご注意ください)。
  • フォントが正しく埋め込まれていないといったトラブルもありますので、早めに一度アップロードされることをお勧めします。


 
情報処理学会 第256回自然言語処理研究会 発表募集
 
●日程: 2023年5月27日(土),5月28日(日)
※発表件数により1日のみの開催となる場合があります.
 
●会場: 北海学園大学 豊平キャンパス
   + オンライン (ビデオ会議システムとしてZoomを利用予定)
 発表者は現地参加を推奨しますが、オンラインでの発表も可能です.
 
●発表申込締切: 2023年4月21日(金)
●原稿締切: 2023年5月1日(月) ※厳守
 
●原稿ページ数:2ページ以上
電子化にともないページ数に上限はありません.
※ ただし20ページを越える場合は事前にご連絡ください.
 
●発表時間予定: 一般講演形式 1件30分 (発表20分、質疑10分)
 
※ 発表時間の調整について
従来の一般講演形式(発表20分,質疑10分)に加えて
ショート形式(発表10分,質疑10分),討議形式(発表10分,質疑討論20分)など,
発表者からの要望に応じて発表の合計時間を調整します.
アイデアレベルの研究の紹介や,研究の詳細まで話したいので時間がほしい,
などの要求を発表申込の備考欄にご記入いただければ,それらを考慮して
プログラムを作成します.ぜひご活用ください.
 
●優秀研究賞
研究運営委員で構成される選考委員会による選考を行い,
研究会に投稿された予稿の中から特に優れたものを対象に優秀研究賞を授与します.
(選考の結果授与対象なしとなることがあります)
 
●若手奨励賞
研究会参加者の投票と研究会幹事団による選考を行い、
年度開始時点(4月1日)で30歳未満,あるいは学生(社会人博士含む)の方を対象に
若手奨励賞を授与します.
(選考の結果授与対象なしとなることがあります)
 
●発表申込先: 下記専用サイトよりお申込みください.
(研究会ホームページからもアクセスできます)
 
●問い合わせ先:
吉永 直樹(東京大学)
ynaga ?at? iis.u-tokyo.ac.jp
 
●今後の予定
第257回研究会 2023年8月末頃予定(計画中)
第258回研究会 2023年9月 FITイベント企画として開催(計画中,招待講演のみ)
第259回研究会 2023年11月末頃予定(計画中、SLP/SP/NLCと合同)
第260回研究会 2024年3月頃予定(計画中)
 
★研究報告のペーパーレス化
本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行いません.
また,特許出願の公知日(研究報告の公開日)は原則開催初日の1週間前です.
 
※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開
します.当日は資料をプリントアウトしてご持参いただくか,ご自身の
PCにダウンロードのうえ,ご持参ください.
 
情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/ (ユーザ登録が必要です)
当日閲覧用サイト
 
※自然言語処理研究会に登録されていない方
当日閲覧用サイトにアクセスできるようにいたします.
なお,当研究会にご登録頂くことで,
本研究会の資料をバックナンバーも含めて電子図書館で購読できます.
登録されていない方は,是非この機会に研究会に登録してください
(登録まで最大3日かかりますのでご留意ください).
 
★研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録されるとお得です.
研究会登録は以下のウェブサイトから行えます.
 
★受け付けは先着順で行なっております
多数のお申し込みを頂いた場合,次回の研究会にまわって頂くよう
お願いする場合があります.なるべく早めにお申し込み下さい.
 
★締め切り後の発表キャンセルは原則としてできません
発表申込後にキャンセルの必要が生じた場合は,至急ご連絡ください.
発表申込後,原稿提出締切までに原稿が到着しない場合には,原則として発表を取り消します。
 
★論文提出締切後の原稿差し替えはできません
論文提出締切後は,訂正版のアップロードやウェブ上での配布などの
原稿差し替えは一切できませんので,予めご留意ください.
※正誤表の掲載が可能な場合がありますのでご相談ください.
 
★2023年度 研究運営委員会
【幹事団】
主査
須藤 克仁(奈良先端科学技術大学院大学)
 
幹事
井之上 直也(北陸先端科学技術大学院大学)
内田 ゆず(北海学園大学)
佐藤 敏紀(LINE株式会社)
萩行 正嗣(株式会社ウェザーニューズ)
吉永 直樹(東京大学)
吉野 幸一郎(理化学研究所)
 
【運営委員】
石垣 達也(産業技術総合研究所)
内山 清子(湘南工科大学)
梶原 智之(愛媛大学)
狩野 芳伸(静岡大学)
上垣外 英剛(奈良先端科学技術大学院大学)
栗田 修平(理化学研究所)
小林 颯介(株式会社Preferred Networks)
渋木 英潔(株式会社BESNA研究所)
田口 雄哉(朝日新聞社)
田中 リベカ(お茶の水女子大学)
田村 晃裕(同志社大学)
土屋 雅稔(豊橋技術科学大学)
西田 光甫(日本電信電話株式会社)
松原 雅文(岩手県立大学)
水本 智也(LINE株式会社)
三田 雅人(株式会社サイバーエージェント)
宮田 玲(名古屋大学)
森下 睦(日本電信電話株式会社)
山城 颯太(ヤフー株式会社)
吉川 将司(Apple Japan合同会社)
鷲尾 光樹 

発表申込・参加申込にてご提供頂いた個人情報について

発表申込・参加申込にてご提供頂いた個人情報は、情報処理学会プライバシーポリシーに則って適切に管理します。同意いただいたうえでお申し込みください。なお、研究会幹事より直接ご連絡させていただく場合もございますのでご了承願います。

参考) 情報処理学会プライバシーポリシー