第253回NL研究発表会

第253回自然言語処理研究発表会

現地開催を含むハイブリッド形式となります.

参加を希望される方は,情報処理学会マイページから参加申込をお願いいたします(当日でも申込可能です) .非会員の方もマイページを開設してお申し込みください.参加申込をしていただくと,ミーティング会場のURL情報や研究報告のダウンロード方法を記載したメールをお送りします.参加費無料の研究会登録会員/ジュニア会員も,URLの取得と参加者数の把握のため,マイページより参加申込をしてくださいますようお願いいたします.

学会サイトの「イベントに参加申込される方へ」もご参照ください.https://www.ipsj.or.jp/member/event_moshikomi.html

 
オンライン参加時の注意事項については,下記リンクの資料が参考になるかと思います
(資料はFIT2020の時のものですが,本研究会もこの方針に準じて進行します).
事前にご一読ください.

 参考資料:FITオンライン参加について
 

参加申込

●日程: 2022年9月29日(木) 10:00-17:40, 30日(金) 9:30-17:40
●会場: 現地+オンライン(Zoom)のハイブリッド
現地会場: 〒606-8501 京都府京都市左京区吉田本町 
京都大学 総合研究8号館 第1講義室
(キャンパスマップ [59]の建物の1階)
 
●参加申し込み(全員):
参加を希望される方は情報処理学会マイページの「会員メニュー」->「イベント一覧・申込」より参加申込をお願いいたします(当日でも申込可能).
非会員の方もマイページを開設してお申し込みください.
 
参加申込をしていただくと,会場のURL情報や研究報告のダウンロード方法を記載したメールをお送りします.
参加費無料の研究会登録会員/ジュニア会員も,URLの取得と参加者数の把握のため,マイページからの参加申込が必ず必要です. 
 
学会サイトの「イベントに参加申込される方へ」もご参照ください.
 
情報処理学会個人会員 / 準登録(個人)の方
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg3  (マイページの、会員メニューの「イベント一覧・申し込み」に第253回のNL研がございますので、選択し、参加申込をおこなってください。)  
情報処理学会へ入会し,会員価格で参加したい方   
非会員のまま参加したい方※賛助会員としてお申込みの方もこちらからご登録お願いします。
 
●現地参加申込(現地参加希望者のみ):
現地参加を希望される方は,上記の通り情報処理学会ページで参加申込を行った
上で、以下の申込フォームから現地参加申込を追加で行って下さい。
 
●現地での感染防止対策について
現地では感染防止対策として,参加者の皆様にマスクの着用および当日参加前の検温をお願いしますまた現地参加に関しては会場のキャパシティから上限を70名に制限し,発表者を優先の上,聴講者に関しては申込順に受け付けをさせて頂きます上限に到達次第,それ以降のお申込についてはオンラインでの聴講をお願いすることになりますので,現地参加を希望される方は早めのお申込をお願いいたしますまたこの問題から,現地参加は事前登録者のみとし,当日参加は受付を行いませんあらかじめご了承下さい
 
現地会場では受付時の簡易体温測定や消毒液による手指の消毒等へのご協力をお願いするとともに,建物内でのマスクの着用を徹底していただきます現地会場参加申込みにあたってはこれらを含む事項に同意いただく必要があります
 
●参加費:
NL研究会登録者:無料
情報処理学会ジュニア会員:無料
情報処理学会正会員、賛助会員、名誉会員:2,000円
情報処理学会学生会員:500円
情報処理学会非会員(一般):3,000円
情報処理学会非会員(学生):3,000円
 
●問い合わせ先:
吉野 幸一郎(理化学研究所)
E-mail: koichiro.yoshino[AT]riken.jp

プログラム

9月29()
9:50-10:00 オープニング
10:00-11:30 [3]
13:00-15:00 [4]
15:15-16:15 [招待講演]
16:30-17:30 [2]

9月30()
10:00-12:00 [4]
13:00-15:00 [4]
15:15-16:45 [3]
16:45-17:00 クロージング

————————————————————-

※若手奨励賞の対象者には著者名の前に「○」を付けています.
一日目
[10:00-11:30] 解析
[1] 平仮名BERTによる平仮名文の分割
〇井筒 順(茨城大学),古宮 嘉那子(東京農業工業大学),新納 浩幸(茨城大学)
日本語を形態素に解析するためにMeCabChasen等の形態素解析システムが存在している。現在存在している日本語の形態素解析システムの精度は非常に高いが、これらのシステムは漢字仮名混じりの文章を対象にしているため全て平仮名で書かれた文章を形態素に分割することは難しい。 本稿ではunigram BERTbigram BERT2種類の平仮名文分割モデルを作成した。BERTモデルの作成に際し事前学習データとしてWikipedaのデータをMeCabを用いて形態素解析し読みの部分を平仮名に変換したものを利用した。また、ファインチューニングのデータとしてBCCWJのコアデータを利用した。ファインチューニング用のデータも事前学習データと同様にBCCWJのコアデータにおける読みの部分を平仮名に変換したものを利用している。さらに、作成した2種類のBERTの平仮名文分割における精度を比較するためにKyteaを用いた平仮名文の分割モデルを作成した。 BCCWJのコアデータを用い5分割交差検証を行いunigram BERTでは97.67%の精度を、bigram BERTでは96.44%の精度を得た。
 
[2] KWJA:汎用言語モデルに基づく日本語解析器
〇植田 暢大(京都大学),大村 和正(京都大学),児玉 貴志(京都大学),清丸 寛一(京都大学),村脇 有吾(京都大学),河原 大輔(早稲田大学),黒橋 禎夫(京都大学)
テキストマイニングなどend-to-end学習になじまない言語処理アプリケーションを構築するためには,形態素解析や述語項構造解析などの言語解析をテキストに適用する必要がある.これまで,解析器はそれぞれのタスクごとに開発されており,それらを繋いで利用するにはコストが高いという問題があった.本研究では,汎用言語モデルに基づく高精度な統合的日本語解析器を設計し,構築する.本解析器は,タイポ修正,分かち書き,形態素解析,言語素性付与,構文解析,述語項構造解析,橋渡し照応解析,共参照解析,談話関係解析という多くの解析を統一的なインターフェイスで実現する.構築した解析器はhttps://github.com/ku-nlp/kwjaで公開している.
 
[3] 疑似訓練データを用いたBERTによる同形異音語の読み推定
〇小林 汰一郎(茨城大学),古宮 嘉那子(東京農業工業大学),新納 浩幸(茨城大学)
日本語には読みに曖昧性を持つ単語が多数存在する。例えば「辛い」は「カライ」のほかに「ツライ」と読むこともできる。このような単語を同形異音語と呼ぶ。本論文では、BERTを用いて同形異音語の読み推定を行う。訓練・テストデータには現代日本語書き言葉均衡コーパス(BCCWJ)と日本語話し言葉コーパス(CSJ)を利用した。BCCWJの大半を占める非コアデータの読みは、形態素解析システムMeCabにより機械的に割り振られたものである。また、BCCWJは書き言葉であり、CSJは話し言葉なので、ドメインのずれが想定される。CSJをターゲット領域としたとき、通常はこの領域の訓練事例を用いて読み推定のモデルを学習・構築すればよいが、訓練事例の構築コストが高いという問題がある。本研究では自動的に付与されたドメイン外の大量の疑似データ(BCCWJのデータ)を利用することで、本来必要としたターゲットの領域の訓練事例の量を大幅に削減することができた。
 
[13:00-15:00] 生成・実世界応用
[4] レーシングゲーム実況テキストモデリングのための運動力学的素性
石垣   達也(産業技術総合研究所),上田   佳祐(産業技術総合研究所),トピチ   ゴラン(産業技術総合研究所),小林 一郎(お茶の水女子大学),宮尾 祐介(東京大学),高村 大也(産業技術総合研究所)
本稿では,レーシングゲーム実況テキストモデリングのための運動力学に基づく素性を提案する. また、モデリングタスクとして従来の実況発話生成に加え、実況発話プランニング、実況発話分類を新たに提案する。 実況ではサーキット上で起こるイベントを実況者が正しく認識し発話される。 従来、モデリングタスクの一つである実況発話生成ではレーシングカーのスピードやハンドル角度といった生データを入力とし、ニューラルネットワークを用いた手法により言語生成している。 実際の実況には「ターン2、曲がっていけるか?」といった発話が多く、コーナーであるか否かや、レーシングカーサーキット場での位置といったより深い状況認識が行われている。 本研究では従来から用いられていた生データに加え、新たに3つの素性を用いてモデリングタスクの性能向上を目指す。 特に提案素性のうち2つは運動力学的な計算によりレーシングカー加速や回転を捉える。 既存データセットを用いた実験より、生成タスクおよびプランニングタスクにおいて提案素性の効果を確認した。 力学的な計算により物体の動きを捉え素性とする手法は、物体の動きを捉える天気予報生成などの言語処理タスクにも汎用的に応用できる可能性がある。
 
[5] 気の利いた家庭内ロボット開発のための曖昧なユーザ要求と周囲の状況の収集*
〇田中 翔平(奈良先端科学技術大学院大学/理化学研究所),湯口 彰重(理化学研究所/奈良先端科学技術大学院大学),河野 誠也(理化学研究所),中村 哲(奈良先端科学技術大学院大学),吉野 幸一郎(理化学研究所/奈良先端科学技術大学院大学)
人と協働する対話ロボットは,ユーザの要求に応じて適切なタスク行動を行うことが一般的である.しかしユーザの要求はしばしば顕在化されず,対話ロボットはそうした状況でも,周囲の状況を適切に読み取りユーザが必要とする行動を取ることが期待される.こうした気の利いた行動をとることができるロボットを実現するため,リビングやキッチンにおいてユーザの家事を補助するタスクを対象に,ユーザの発話と周囲の状況に対応する気の利いたロボットの行動からなるデータを構築した.データ構築の方法として,本研究では大きく分けて三段階の手順を踏んだ.まず ``ペットボトルを持ってくる'' など,ロボットがとることのできる気の利いた行動をあらかじめ定義し,それらの行動をとっているロボットの映像を収録した.次に収集した行動の映像をクラウドワーカーに視聴してもらい,どのような状況でロボットがその行動をとってくれたら気が利いていると思うかをテキストで入力してもらった.最後に収集した状況のテキストに基づき,ロボットが気の利いた行動をとる直前のユーザの発話が行われる状況に紐付けられた画像を収集した.一般にロボットの学習で用いることができるデータは収集コストが大きいため,本研究ではごく少数のデータを収集し,収集した画像から得られる説明的な特徴量についてのアノテーションを行った.構築した少数データセットを用いて気の利いた行動を選択するロボットを実現するため,ユーザの発話内容や画像の畳み込みのみを特徴量として用いる分類器や,説明的な特徴量も用いるマルチモーダルな分類器など,複数のベースラインモデルを構築した.構築したベースラインモデルの性能を比較したところ,単純に画像の畳み込みや事前学習モデルによる特徴量抽出を用いるよりも,人手で付与した画像特徴に関する説明的なアノテーション結果がより分類精度の向上に寄与し,画像から抽出する情報の種類が重要であることが示された.
 
[6] 説明文生成を用いた動作行動予測*
〇中村 泰貴(東京大学),河野 誠也(理化学研究所),湯口 彰重(理化学研究所),川西 康友(理化学研究所),吉野 幸一郎(理化学研究所)
ロボットをはじめとする人間を支援するシステムは、その観測から状況を正しく理解し、人間が必要とする支援行動を出力する必要がある。 特に人間を対象とした支援において、システムがどのような状況理解を行い、どのような動作行動の生成しようとしているかは、言語で表現することが重要である。 そこで本研究では、現在の状況からシステムが行うべき行動を予測しその内容を言語で説明する、動作行動予測とその言語化 (captioning operative action) に取り組む。 具体的には、ある状況とそこに対して何らかの支援行動が行われた状況の画像を入力とし、どのような支援行動が行われたかを説明する言語化タスクを行う言語化システムを構築した。 この際、単純に画像を入力として用いるのではなく、その間に行われた支援行動に相当する動作のシーングラフ予測を補助タスクに用いた。 補助タスクを用いることで、シーングラフのアノテーションが存在しないテストセットに対しても精度高く動作行動の予測と言語化を行うことができることが確認された。
 
[7] テキストマイニングツールのログからの実験設定の説明文生成
〇森田 康介(京都大学),西村 太一(京都大学),亀甲 博貴(京都大学),森 信介(京都大学)
実験設定を適切に記述することは、科学技術論文において重要である。 本研究では、テキストマイニングツールのログから実験設定の説明文を生成することを目的とする。 人文科学分野において広く使用されているKH coderを用いている論文を対象に収集し、論文中の実験設定の記述と実際のツールの実行ログを再現したもののペアからなるデータセットを構築した。また、このデータセットを用いて論文中の記述から実行ログを推定するモデルを構築し、アノテーションしていない論文に適用することにより自動的にデータセットを拡充した。これらを用いて、実験ログから説明文を生成するモデルを構築した。
 
[15:15-16:15] 招待講演
[8] 論理に基づく推論システムの再訪
〇谷中 瞳(東京大学/理化学研究所)
自然言語の意味を計算処理可能な形式で表し、文と文との意味的な関係を自動判定する自然言語推論システムは、計算機による自然言語理解の根幹をなす技術である。現在、自然言語処理分野では、深層学習によって自然言語の意味を大量のテキストデータから学習する統計的なアプローチが活発に研究されているが、否定や数量表現、比較表現、時間関係など、様々な意味の扱いに課題がある。一方で、形式意味論では記号論理を用いてこれらの意味を分析する理論が成熟しつつあり、自然言語処理と形式意味論の利点、深層学習と記号論理の利点を組み合わせることで、高性能な推論システムの構築が期待できる。本講演では、我々の推論システムに関する最近の取り組みを紹介し、現状の到達点と課題を述べる。
 
[16:30-17:30] 深層学習の性能調査
[9] スキップレイヤー法を用いた BERT の分析
喜友名 朝視顕(東京都立大学),岡 照晃(東京都立大学),小町 守(東京都立大学)
本研究において,連続する一部の層を恒等関数に置き換えることをスキップレイヤー法と呼ぶことにする.BERT に対してスキップレイヤー法を適用したときの性能には,正解ラベルごとに異なるパターンがみられることがわかった.これは,BERT 上で重要な層が正解ラベルごとに異なることを示唆している.そこで,BERT への理解をさらに深めるために,正解ラベルとパターンの関係を分析する.
 
[10] 事前学習済み言語モデルの主観的知識の調査
〇小林 篤弥(工学院大学),高橋 良颯(工学院大学),山口 実靖(工学院大学)
自然言語処理において,BERTGPTなどの事前学習済みの活用が普及し,それら言語モデルの内包する知識の調査などが行われている.本稿では,著名な言語モデルの一つであるGPT-3に着目し,そのモデルが内包する主観的な知識について調査し,その偏りについて考察する.
 
二日目
[10:00-12:00] 言い換え、スタイル
[11] 変数置き換えモデルを用いた医薬品情報の可読性分析と検索件数を用いた複合名詞の文章平易化の検討
赤木 信也(NTTデータ先端技術株式会社)
英文と日本語文の両文に適用可能な可読性指標として, 変数置き換えモデルによる可読性指標を提案した.言語モデルである帯2との比較により, 日本語文を大まかに分類できること, 形態素分割より字種分割を用いる方法が最適であることが示された.また, 英文と日本語翻訳文の比較により, 日英両文に適用可能であること, 対応付けとして字種分割(ひらがな・片仮名の再分割なし)を用いる方法が最適であることが示された.更には, 医薬品添付文書とくすりのしおりの比較により, 古典的な手法よりも正確に判定できること, および英語圏の質保証基準を援用できることが示された.そして, 検索件数を用いた助詞『の』の自動補完による複合名詞の文章平易化を検討した結果, jFREの値が45未満の文章をjFREの値が45以上になるように平易化できることが示された.ただし, 形態素解析時や複合名詞抽出時において, 自動補完の調整が必要な用語が存在しており, 自動補完手法の改善が求められる.
 
[12] スタイル分離に基づくスタイル変換と異常検知の同時学習に基づく文書のスタイル一貫性改善
〇京野 長彦(東京大学),吉永 直樹(東京大学),佐藤 翔悦(東京大学)
文書のスタイルは文書全体で一貫していることが望ましいが,意図せず不適切なスタイルの文が混入することも多い.そのため,我々は一部に異なるスタイル文の混入した文書のスタイル一貫性を改善するタスクに取り組んでいる.本研究では,スタイルの分離に基づくスタイル変換器と自己教師ありに基づく異常検知器の同時学習を用いてこれを解く手法を提案する.具体的には,既存のスタイル変換データセットを用い,無作為に文を組み合わせて擬似的な文書の学習データを自動構築する.このようにして自動構築した学習データを用いて,その入力文書に含まれる各文のスタイルをベクトル表現として分離し,教師ありTransformer異常検知器と教師なしスタイル変換器にそれぞれ入力して各モデルを同時学習させる.推論時には前者の異常検知器を用いて異質なスタイルで書かれた文を検出し,そこで検出された文を,後者のスタイル変換器を用いて,入力中の他の文のスタイルを考慮して変換する.予備実験として,4種類のスタイル変換データセットを用いて,上記の方法で人工的な学習・評価データを構築して性能を評価する.また,実際の文章に提案手法を適用し,実際的な評価を行う.
 
[13] T5 による特定キャラクター風発話への変換とその言語モデルの構築
〇岸野 望叶(茨城大学),古宮 嘉那子(東京農業工業大学),新納 浩幸(茨城大学)
現在、Siriなどの対話エージェントが盛んに利用されていたり、RPGなどのゲームで大量のセリフが必要になったりする。それらの発話はキャラクターらしさを含んでいることが求められる。しかし、特定のキャラクターに特化した言語モデルの構築を行うには学習データが限られており精度の向上は困難である。そのため本論文では対象の発話者と同作品に出てくる別人物の発話をT5を用いて、対象発話者の発話風に変換し、学習データを増補する。その学習データを「ドメイン」の学習データ、対象の発話者の発話を「タスク」の学習データとし、TAPT-DAPTの手法でベースの言語モデルとなるGPT2にファインチューニングを行った。その結果、GPT2に対象の発話者の発話のみで学習を行った場合のパープレキシティが46.23 であったのに対し、この手法で行った場合のパープレキシティは43.93 となり、精度を向上させることができた。
 
[14] 口調ベクトルを用いた小説発話の話者推定
〇石川 和樹,宮田   玲,小川   浩平,佐藤   理史
話し方には,その人らしさが反映される.小説の発話ではこの事実を利用し,話者の個性や人物像を発話に反映させ,話者が誰であるかを間接的に示すことがしばしば行われる.本論文では,この点に着目し,口調の違いに基づく小説発話の話者推定法を提案する.本方法の中核は,発話を口調ベクトルに変換する機構(口調ベクトル変換器)とその構成法にある.小説の話者は,それぞれの小説で異なるため,推定対象話者に対して大量の発話データを用意することは非現実的である.そこで,あらかじめ他の小説の発話データを用いて,発話の口調を推定する口調弁別器をニューラルネットを用いて構成し,このニューラルネットを口調ベクトル変換器として利用する.実際の話者推定では,推定対象話者の少量の発話データより,その話者の代表口調ベクトルを作成し,ベクトルの類似度を用いて,話者を決定する.
 
[13:00-15:00] 談話構造、誤り訂正
[15] オンライン会議における議論の要点と対話の雰囲気の認識技術の開発
後藤 啓介(京セラ株式会社),新美 翔太朗(京セラ株式会社),荒川 智哉(京セラ株式会社),西田 典起(理化学研究所),松本 裕治(理化学研究所),廣島 雅人(京セラ株式会社)
オンラインで行われる会議では視聴覚情報の制限や遅延により議論の流れや雰囲気を把握しづらいという課題がある.この課題解決のために,著者らはオンライン会議における議論の要点および対話の雰囲気の認識技術の開発に取り組んでいる.本稿では,オンライン会議の対話データセットの構築および対話の雰囲気のアノテーション,ならびに,非言語情報を考慮した議論の要点抽出および発話の感情分析をベースとした対話の雰囲気認識の各技術についての検討内容を報告する.
 
[16] オンライン会議での自動要約のためのマルチモーダル情報を考慮した重要発話抽出に関する検討
〇新美 翔太朗(京セラ株式会社),後藤 啓介(京セラ株式会社),西田 典起(理化学研究所),松本 裕治(理化学研究所),荒川 智哉(京セラ株式会社),廣島 雅人(京セラ株式会社)
近年,ビデオ通話アプリの台頭により,会議を従来のようにオフラインで行うのではなくオンラインで行う機会が増加している.オンライン会議はオフライン会議と比較し,通信システムを介することで生じる視聴覚情報の制限や遅延により議論の流れを把握しづらいという課題がある.以前より画像や音声といったマルチモーダル情報を考慮した自動要約技術も研究が行われてきたが,それらは主にオフラインでの会議を考慮した研究であり,オフライン会議においても同様の結果が得られるとは言えない.そこで,本研究ではオンライン会議において得られるマルチモーダル情報を考慮した重要発話抽出手法を提案し,自動要約の精度向上によるオンライン会議の理解促進を目指す.
 
[17] 日本語文法誤り訂正評価コーパスへの誤用タグ付け
〇小山 碧海(東京都立大学),喜友名 朝視顕(東京都立大学),三田 雅人(株式会社サイバーエージェント/東京都立大学),岡 照晃(東京都立大学),小町 守(東京都立大学)
本稿では日本語文法誤り訂正評価コーパスへの誤用タグ付けを行う.日本語学習者が犯す誤りには助詞誤りや時制誤りなど様々な誤りが存在する.しかし日本語文法誤り訂正評価コーパスの一つである TMU Evaluation Corpus for Japanese Learners (TEC-JL) には誤りを分類するための誤用タグが付与されていない.そこで本研究では誤用タグを設計し TEC-JL 中の各誤りに付与する.また付与した誤用タグを利用し,日本語文法誤り訂正モデルを誤りタイプ別に評価した結果を報告する.
 
[18] 後続文脈の考慮が文法誤り訂正性能にもたらす影響の調査
〇井手 佑翼(奈良先端科学技術大学院大学),出口 祥之(奈良先端科学技術大学院大学),五藤 巧(奈良先端科学技術大学院大学),Sarhangzadeh Armin(奈良先端科学技術大学院大学),渡辺 太郎(奈良先端科学技術大学院大学)
既存の典型的な文法誤り訂正モデルは各入力文を独立に扱うため,文脈を考慮した訂正を行えない.この問題に対して先行研究では,訂正対象の文だけでなく,先行する文脈をモデルに入力する手法が提案されてきた.本研究は,これに加えて後続の文脈または前後両方の文脈を入力した場合に訂正性能がどのように変化するか,定性分析を交えて調査する.
[15:15-16:45] 知識、メタデータ
[19] 言及に対する地理的特定性指標の提案と文書ジオロケーションへの適用
〇陰山 宗一(筑波大学),乾 孝司(筑波大学)
本稿では,文書内に出現する地名やランドマーク等に関する言及に対し,その地理的位置の特定のしやすさを表す指標として地理的特定性を提案・検討する.この指標は,文書ジオロケーション課題のような言語情報を用いた地理的課題を解く上での特徴量として用いることを想定している.また,SNSユーザとして居住地域の特定を防ぐ投稿をする際の指標としても将来的に使用できると考える.本稿ではまず,地理的特定性の定義を説明した後,Wikipedia データを用いた具体的な指標値の算出方法について述べる.その後,地理的特定性を文書ジオロケーション課題に適用した検証実験について述べ,地理的特定性の有効性を示す.
 
[20] 日本語 CommonGen の試作と入力単語間の関連性からの考察
〇鈴木 雅人(茨城大学),新納 浩幸(茨城大学)
常識推論は人工知能の難問の1つであり、その研究開発のためのタスクがいくつか提案されている。その一つとして CommonGen がある。CommonGen は、概略、数個の入力単語からそれら単語を用いた妥当な文を生成するタスクである。文法上正しい文であっても常識的にはおかしな文を生成することを避けるには常識推論が必要と考えられる。ただし T5 BART などの文生成用の事前学習済みモデルを利用すれば、ある程度の質の文が生成できることも知られており、このアプローチが現実的である。そのようなアプローチを取った場合、所望の文が生成できるかどうかは入力単語間の関連性に依存していると予想している。本論文ではこの予想を確認するために、日本語 CommonGen のデータセットを試作し、このタスク用の T5 を用いたモデルを構築した。またこの予想から、モデルの性能を向上するために、入力単語群のハブとなる単語を追加する手法を提案する。
 
[21] CrossWeigh の日本語 NER データセットへの適用
〇西村 柾人(茨城大学),新納 浩幸(茨城大学)
通常、教師あり学習は訓練データには誤りがないという前提で学習が行われるが、実際には誤りを含む場合も多い。特に NER のデータセットはラベルの定義に曖昧なものがあり、複数の作業者でのタグ付けには誤りが生じやすい。このような背景から Wang らは誤ったラベルの付いたデータセットから NER のモデルを学習する CrossWeigh を提案した。本論文では CrossWeigh をストックマーク株式会社が提供している、Wikipediaの日本語NERデータセットに適用し、CrossWeigh の効果を確認する。同時に、このデータセット内の誤りの検出を試みる。

発表募集のご案内

★★★★★★★★★★★★★★★ 原稿締切厳守 ! ★★★★★★★★★★★★★★★★
・原稿締切日の24時を過ぎるとシステムに投稿が出来なくなり、
  発表も取り消しとなりますのでご注意ください。
・原稿締切までは何度でもご自身でアップロード可能です。
  (締切後は、原稿の差替え(再アップロード)、発表の取り消しもできませんのでご注意ください。)
・フォントが正しく埋め込まれていないといったトラブルもありますので、
  早めに一度アップロードされることをお勧めします。
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
第253回自然言語処理研究会を2022年9月29日(木),30日(金)に開催いたします.
今回は2年ぶりに現地開催を含むハイブリッド形式となります.
皆さまの投稿をお待ちしています.
 
●日時: 2022年9月29日(木),30日(金)
 
●会場: 京都大学吉田キャンパス総合研究8号館
(ハイブリッド形式で、ビデオ会議システムZoomでも参加可能)
 
●発表申込締切: 2022年8月17日(水)
 
●原稿締切: 2022年9月6日(火)※厳守
 
●原稿ページ数:2ページ以上
電子化にともないページ数に上限はありません.
※ ただし20ページを越える場合は事前にご連絡ください.
 
●発表時間予定: 一般講演形式 1件30分 (発表20分、質疑10分)
 
※ 発表時間の調整について
従来の一般講演形式(発表20分,質疑10分)に加えてショート形式(発表10分,
質疑10分),討議形式(発表10分,質疑討論20分)など,発表者からの要望
に応じて発表の合計時間を調整します.アイデアレベルの研究
の紹介や,研究の詳細まで話したいので時間がほしい,などの要求を発表
申込の備考欄にご記入いただければ,それらを考慮してプログラムを作成
します.ぜひご活用ください.
 
●優秀研究賞
研究会に投稿された予稿の中から特に優れたものを優秀研究賞として表彰
する予定です.
 
●若手奨励賞
年度開始時点(4月1日)で30歳未満,あるいは学生(社会人博士含む)である
発表者を対象として,研究会参加者の投票によって選考します.
 
●発表申込先: 下記専用サイトよりお申込みください.
(研究会ホームページからもアクセスできます)
 
・若手奨励賞の要件を満たす場合,以下を連絡事項に記載ください.
「若手奨励賞の対象である」
 
●問い合わせ先:
吉野幸一郎(理化学研究所)
E-mail: koichiro.yoshino[AT]riken.jp
 
●今後の予定
第254回研究会 2022年12月頃予定
 
★現地での感染防止対策について
現地では感染防止対策として,参加者の皆様にマスクの着用および当日参
加前の検温をお願いします.また現地参加に関しては会場のキャパシティ
から上限を70名に制限し,発表者を優先の上,聴講者に関しては申込順に
受け付けをさせて頂きます.上限に到達次第,それ以降のお申込について
はオンラインでの聴講をお願いすることになりますので,現地参加を希望
される方は早めのお申込をお願いいたします.またこの問題から,現地参
加は事前登録者のみとし,当日参加は受付を行いません.あらかじめご了
承下さい.
 
★研究報告のペーパーレス化
本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行い
ません.また,特許出願の公知日(研究報告の公開日)が従来より1週間
早まりますので,ご留意ください.
 
※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開
します.
 
情報処理学会電子図書館(情報学広場)
(ユーザ登録が必要です)
 
当日閲覧用サイト
 
※自然言語処理研究会に登録されていない方
当日閲覧用サイトにアクセスできるようにいたします.
なお,当研究会にご登録頂くことで,
本研究会の資料をバックナンバーも含めて電子図書館で購読できます.
登録されていない方は,是非この機会に研究会に登録してください
(登録まで最大3日かかりますのでご留意ください).
 
★研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録される方が(ほぼ)
お得になります.研究会登録は以下のウェブサイトから行えます.
 
★受け付けは先着順で行なっております
多数のお申し込みを頂いた場合,次回の研究会にまわって頂くよう
お願いする場合があります.なるべく早めにお申し込み下さい.
 
★締め切り後の発表キャンセルは原則としてできません
発表申し込み後にキャンセルの必要が生じた場合は,至急ご連絡ください.
発表申込後,原稿提出締め切りまでに原稿が到着しない場合には,幹事団の
判断により発表を取り消しさせていただくこともあります.
 
★論文提出締切後の原稿差し替えはできません
論文提出締切後は,訂正版のアップロードやウェブ上での配布などの原稿
差し替えは一切できませんので,予めご留意ください.
※正誤表の掲載が可能な場合がありますのでご相談ください.
 
★研究会幹事団
主査:
 須藤 克仁    奈良先端科学技術大学院大学
幹事:
 内海 慶     株式会社デンソーアイティーラボラトリ
 内田 ゆず    北海学園大学
 古宮 嘉那子   東京農工大学
 萩行 正嗣    株式会社ウェザーニューズ
 吉永 直樹    東京大学
 吉野 幸一郎   理化学研究所
 
運営委員:
 石垣 達也    産業技術総合研究所
 江原 遥     東京学芸大学
 大内 啓樹    奈良先端科学技術大学院大学
 梶原 智之    愛媛大学
 上垣外 英剛   奈良先端科学技術大学院大学
 亀甲 博貴    京都大学
 栗田 修平    理化学研究所
 小林 暁雄    農業・食品産業技術総合研究機構
 斉藤 いつみ   日本電信電話株式会社
 渋木 英潔    株式会社BESNA研究所
 田中 リベカ   お茶の水女子大学
 田村 晃裕    同志社大学
 成松 宏美    日本電信電話株式会社
 西田 京介    日本電信電話株式会社
 増村 亮     日本電信電話株式会社
 馬緤 美穂    ヤフー株式会社
 水本 智也    LINE株式会社
 三田 雅人    株式会社サイバーエージェント
 三輪 誠     豊田工業大学
 森田 一     株式会社Gunosy
 谷中 瞳     東京大学
 吉川 克正    LINE株式会社
 吉川 将司    東北大学
 鷲尾 光樹    リクルート株式会社 
 
 
 

発表申込・参加申込にてご提供頂いた個人情報について

発表申込・参加申込にてご提供頂いた個人情報は、情報処理学会プライバシーポリシーに則って適切に管理します。同意いただいたうえでお申し込みください。なお、研究会幹事より直接ご連絡させていただく場合もございますのでご了承願います。

参考) 情報処理学会プライバシーポリシー