E分野 自然言語・音声・音楽 |
選奨セッション 自然言語 |
9月13日(火) 9:30-12:00 1d会場
座長 吉野 幸一郎(理化学研究所)
高橋 寛治(Sansan) |
CE-001 |
言語モデルを用いた教師なしマルチソースドメイン適応と距離指標に基づくドメイン選択
◎藤井 巧朗・濱上 知樹(横浜国立大学)
×
CE-001言語モデルを用いた教師なしマルチソースドメイン適応と距離指標に基づくドメイン選択
◎藤井 巧朗・濱上 知樹(横浜国立大学)
近年,BERTなどの事前学習済み言語モデルにより,様々なタスクでState-of-the-Artの精度を達成している.しかし,訓練データと評価データの分布が異なる場合,大規模事前学習済み言語モデルでさえもドメインシフトによりモデルの性能が悪化することが知られており,実利用時の課題となっている.本研究では,複数のラベル付きソースドメインからラベル無しターゲットドメインへ適応するマルチソースドメイン適応に取り組む.学習中にターゲットドメインへ正に作用するソースドメインを動的に選択する手法を提案し,作用の分析と評価を行う. |
CE-002 |
疑似的演繹推論を行う質問応答システムの開発
○田中 一晶・髙橋 ともみ(京都工芸繊維大学)・小林 賢一郎・中谷 宙詩(TIS)・岡 夏樹(京都工芸繊維大学)
×
CE-002疑似的演繹推論を行う質問応答システムの開発
○田中 一晶・髙橋 ともみ(京都工芸繊維大学)・小林 賢一郎・中谷 宙詩(TIS)・岡 夏樹(京都工芸繊維大学)
疑似的な演繹推論によって能動的にユーザに知識を与える質問応答システムを提案する.まず,条件部と帰結部に分けた文のデータベースを作成する.そして,入力文に類似した条件部を検索し,対応する帰結部を応答文とする.例えば,「海外旅行に行くんだ」という入力文に対して,類似した条件部「海外旅行に行く場合は」を発見すると,その帰結部である「パスポートが必要です」という文を返答する.このシステムには未知のドメインに対応できる類似文検索モデルが必要であり,日本語学習済みBERTをファインチューニングしたSentence BERTを構築した.その学習データには,文の性質が大きく異なるデータをアンダーサンプリングして混合することが有効であることを示した. |
CE-003 |
Sentence-BERTの文ベクトルによる画像生成
◎泉 諒音・神野 健哉(東京都市大学)
×
CE-003Sentence-BERTの文ベクトルによる画像生成
◎泉 諒音・神野 健哉(東京都市大学)
Sentence-BERTはBERTに対し、文章の特徴をうまく捉えるようにファインチューニングを施したモデルである。Sentence-BERTが生成する文章の分散表現である文ベクトルが文章の意味を捉えているかを検証する方法として本稿では文ベクトルからの画像生成を検討する。画像を説明する文章とをSentence-BERTで文ベクトル化し、生成された文ベクトルから画像を生成するモデルを構成する。そして複数の文ベクトルでのベクトル演算結果でどのような画像が生成されるかを検証する。そしてSentence-BERTが生成する文ベクトルはどのような分散表現を獲得しているかについて実験的に確認を行う。 |
CE-004 |
流行要因分析のための投稿テキスト・リプライ・画像からの感性分析及び可視化
◎網谷 嶺志・松本 和幸・吉田 稔・北 研二(徳島大学)
×
CE-004流行要因分析のための投稿テキスト・リプライ・画像からの感性分析及び可視化
◎網谷 嶺志・松本 和幸・吉田 稔・北 研二(徳島大学)
本研究では、Twitter上の投稿がきっかけで起こるバズ現象の要因を可視化する手法を提案する。分析対象とするのは、ツイート本文と画像およびリプライである。リプライは投稿されたツイートに対して投稿される事後の反応であるため、バズ現象の予測に 用いることはできない。本研究では、ツイート本文、画像、リプライテキストを 特徴ベクトル化し、感性分析モデルを構築する。このモデルから出力された感性特徴量とバズの規模を表すRT数やいいね数(反響指数)との関係性について可視化を行うことで流行要因の分析に役立てる。 |
CE-005 |
機械翻訳テキストを用いた低資源言語特定分野向けBERTの事前学習
◎石垣 達也・上原 由衣・高村 大也・トピチ ゴラン(産業技術総合研究所)
×
CE-005機械翻訳テキストを用いた低資源言語特定分野向けBERTの事前学習
◎石垣 達也・上原 由衣・高村 大也・トピチ ゴラン(産業技術総合研究所)
SciBERTなど特定分野のテキストを用いて学習したBERTは、様々なドメイン特化タスクにおいて良い性能を示すBERTの事前学習には大規模コーパスが必要となるが、必ずしも全ての分野において大規模コーパスが獲得できるわけではない。特にこの問題は例えば日本語の材料科学分野など、英語以外の細分化された分野において見られる。 そこで、本研究ではこの問題に対し、言語資源が豊富な英語の専門テキストを機械翻訳し獲得したテキストを用いてBERTを学習する枠組みを提案する。日本語の材料科学分野のテキストを対象としたエンティティ抽出および関係抽出タスクにおいて、機械翻訳により得られたテキストによって従来のBERTよりも性能が向上することを報告する。この結果は、従来データ量の不足から事前学習が困難であった低資源言語および分野に対しBERTの事前学習が可能になることを示唆する。 |
CE-006 |
対話行為における少数派タグ分類のための多段階分類法
◎宮城 孝明・遠藤 聡志(琉球大学)
×
CE-006対話行為における少数派タグ分類のための多段階分類法
◎宮城 孝明・遠藤 聡志(琉球大学)
対話行為は話者の「意図」や「意味」を表し,対話をより明確に理解する際や,システム応答の指標などに用いられる.しかし,対話行為タグの数が不均衡なデータセットによる学習が必要となるため,少数派タグは正しく分類されにくい.本研究では,少数派タグの分類精度向上のために4段階構成のデータセットと分類器を提案する.多段階分類器では,4つの多層パーセプトロンを用いこれを階層的に重ねる.1から3段階目はタグの偏りを疑似的に解消させるて2値分類問題として扱う.4段階目は通常の多値分類問題として扱う.対話行為分類問題に対する多段階分類の有効性を実験で示す. |
選奨セッション 音楽・音声 |
9月13日(火) 13:10-15:10 2d会場
座長 酒向 慎司(名古屋工業大学)
高島 遼一(神戸大学) |
CE-007 |
ピアノ宿題練習のためのAI採点方式
○細田 真道・最知 庸・小林 丈之(NTT東日本)・笹生 恵理(東音企画)・山内 竣平・野口 啓之(ピティナ)・阪内 澄宇(NTT東日本)
×
CE-007ピアノ宿題練習のためのAI採点方式
○細田 真道・最知 庸・小林 丈之(NTT東日本)・笹生 恵理(東音企画)・山内 竣平・野口 啓之(ピティナ)・阪内 澄宇(NTT東日本)
ピアノ教室では指導者が課す宿題を生徒が自宅で毎日練習することを求める.自宅練習では指導者不在のため生徒が自ら演奏の良否を判断するが初心者には困難で,次のレッスンで指導者が指摘するまで間違ったまま練習をして宿題の効果が小さくなってしまうことがある.我々はこうした課題を解決するため自宅練習を補助するhiketaシステムの実現を目指している.本稿はhiketaシステムのAI採点方式として生徒演奏をMIDI収録し,予め登録した模範演奏や間違い演奏のモデルと比較して良否や間違いを検出,修正アドバイスできる方式を提案する.そして有効性を確かめるため複数の演奏者による演奏を判定する評価実験を実施する. |
CE-008 |
ピアノ曲を対象としたエレクトーン演奏へのアレンジのための音色自動決定方式
◎荒蔭 遥音・岡田 龍太郎・峰松 彩子・中西 崇文(武蔵野大学)
×
CE-008ピアノ曲を対象としたエレクトーン演奏へのアレンジのための音色自動決定方式
◎荒蔭 遥音・岡田 龍太郎・峰松 彩子・中西 崇文(武蔵野大学)
本稿では,ピアノ曲を対象としたエレクトーン演奏へのアレンジのための音色自動決定方式について示す。一般的に,エレクトーンはフレーズごとに様々な音色を設定することができ,大量の音色プリセットからそのフレーズに合致した音色を選択することは,アレンジ上の負担となる。本方式は,ピアノ曲のフレーズの楽譜情報としてMIDIデータを入力として与え,事前にフレーズと音色からなるデータセットを準備しておき,入力されたフレーズのMIDIデータと似たフレーズの音色を候補の音色として決定する。これにより,ピアノ曲の楽譜情報から,エレクトーンで演奏するための音色を自動的に決定することが可能となる。 |
CE-009 |
楽曲プレイリストの音響特徴遷移を模した新規プレイリスト自動生成方式
◎守屋 朋夏・岡田 龍太郎・峰松 彩子・中西 崇文(武蔵野大学)
×
CE-009楽曲プレイリストの音響特徴遷移を模した新規プレイリスト自動生成方式
◎守屋 朋夏・岡田 龍太郎・峰松 彩子・中西 崇文(武蔵野大学)
本稿では,楽曲プレイリストの音響特徴遷移を模した新規プレイリスト自動生成方式について示す.本方式は,既存のアルバム作品を対象として,そのアルバムに含まれる楽曲メディアコンテンツの音響特徴の遷移を抽出しておき,ユーザが着目する楽曲メディアコンテンツを入力することで,用意した楽曲群からその他の曲を選んで並べることでプレイリストの音響特性の遷移を模した新規プレイリストを自動生成するものである.本方式が実現されることにより,ユーザ自身の嗜好と合致した楽曲メディアコンテンツ群からなるプレイリストを提示できるため,ユーザにとって効率的に楽曲メディアコンテンツ群を楽しむことが可能となる. |
CE-010 |
ハンドベルの和音特徴を考慮した対話型進化計算による楽曲の自動生成
◎甲斐川 純奈・佐久間 拓人・加藤 昇平(名古屋工業大学)
×
CE-010ハンドベルの和音特徴を考慮した対話型進化計算による楽曲の自動生成
◎甲斐川 純奈・佐久間 拓人・加藤 昇平(名古屋工業大学)
ハンドベルは天使の歌声と呼ばれているくらい音の響きが美しい楽器であるが,日本では認知度が低く,ハンドベルの良さを知らない人も多い.また,認知度が低いことからハンドベルを専門とする作曲家は日本には多くはいない.ハンドベルの魅力を多くの人に知ってもらうためには,ハンドベルの特徴を活かした楽曲を多数作曲することが重要である.本研究では,木構造を用いて楽曲を表現し,同時発音数が多いというハンドベル楽曲の特徴を取り入れた対話型進化計算による楽曲生成手法を提案する.ハンドベル演奏者,演奏未経験者による提案システムを用いた楽曲生成を行い,生成楽曲の印象評価から提案手法の有効性を検証する. |
CE-011 |
(講演取消) |
CE-012 |
講演音声認識の言語モデル適応のためのDoc2vecによるフィルタリングを活用した自動コーパス構築
◎和田 蒼汰・早川 大智・岩田 憲治(東芝)
×
CE-012講演音声認識の言語モデル適応のためのDoc2vecによるフィルタリングを活用した自動コーパス構築
◎和田 蒼汰・早川 大智・岩田 憲治(東芝)
講演資料から抽出した特徴語に基づき自動構築したコーパスで汎用言語モデルを適応することで、講演音声認識の精度を向上させる技術がある。しかし、従来のコーパス構築法では講演が扱うドメインとは関係のないテキストが含まれることがあり、性能向上を妨げる可能性がある。そこで本手法では、講演資料と構築したコーパス内のテキストをDoc2vecを用いて固定長のベクトルに変換し、cos類似度を測定することで対象のドメインとテキストとの類似度を求め、類似度が低いテキストをフィルタリングする。12種の講演音声で性能を評価した結果、フィルタリング前と比較して、音声認識精度と専門用語の認識精度が向上した。 |
自然言語処理(感情分析・辞書) |
9月13日(火) 13:10-15:10 2e会場
座長 延澤 志保(東京都市大学) |
E-001 |
アプリレビューを用いた不具合に対するユーザーへの感情分析
◎古波津 巧真・近上 将太・太田 修平・石井 信明(神奈川大学)
×
E-001アプリレビューを用いた不具合に対するユーザーへの感情分析
◎古波津 巧真・近上 将太・太田 修平・石井 信明(神奈川大学)
スマートフォンアプリ(以下,スマホアプリ)内で不具合が発生することによって,ユーザーのスマホアプリに対する評価が低下する.開発者は,不具合による評価への影響を把握することによって,ユーザー離れが生じるリスクの大小を考えることができる.本研究では,Google Playにおけるスマホアプリゲームのジャンルごとに,スマホアプリレビューの分析を行うことで,不具合によるユーザーの感情への影響を数値化する.数値化の際には,感情ごとの辞書を作成する.その辞書を用いて,各レビュー文章を単語ごとに判定し,未分類と0〜1の数値で感情を表す.これによって開発者は不具合によるユーザーのアプリ評価への影響を定量的に知ることが可能になる. |
E-002 |
テキスト感情分析における絵文字疑似ラベル適用方法についての検討
◎浅野 晴暉・松原 雅文(岩手県立大学)
×
E-002テキスト感情分析における絵文字疑似ラベル適用方法についての検討
◎浅野 晴暉・松原 雅文(岩手県立大学)
テキスト感情分析はテキストから感情を自動識別する技術である. この技術には,喜・怒・哀・楽といった多クラスを識別する手法が存在するが,既存のデータセットが少ないことから高精度な分析が困難となっている. そのため,昨今では絵文字を感情の疑似ラベルに見立て,学習する手法が存在する. しかし,従来の手法では,絵文字に対しての感情の重みづけや同定法が主観的であるといった問題点が存在する. そこで,本稿では感情分析における絵文字の疑似ラベルの適用方法についての検討を行う. 実験により,絵文字の統計量を適切に把握することで,客観的な感情や重みが付与された疑似ラベルの構築を目指す. |
E-003 |
感情語辞書を用いた中国小説の感情分析
◎黄 永輝・上原 稔・安達 由洋(東洋大学)
×
E-003感情語辞書を用いた中国小説の感情分析
◎黄 永輝・上原 稔・安達 由洋(東洋大学)
近年、中国と日本の文化交流が盛んになっている。数年前から、日本の小説、ドラマ、文学などの作品が大量に中国語に翻訳されて中国に輸入されている。我々は、自然言語処理とAI技術を駆使した日本語感情表現分析システムEEAS(Emotional Expression Analysis System)を開発し、EEASを用いた文学研究のデジタルアプローチを提案した。また、中国語感情表現分析システムCEEAS(Chinese EEAS)を開発した。本研究では、先ず、CEEASを用いて中国小説の感情分析を行い、感情出現の特徴を調査した。また、日本小説の感情出現との比較を行った。更に、中国小説とその日本語翻訳、逆に日本小説とその中国語翻訳をCEEASとEEASを用いて感情分析し、2国間での小説の感情表現の差異を調査した。 |
E-004 |
近代文語に対応した形態素解析辞書の作成についての検討
◎山本 理紗子・来住 伸子(津田塾大学)
×
E-004近代文語に対応した形態素解析辞書の作成についての検討
◎山本 理紗子・来住 伸子(津田塾大学)
現在多くの近代文語で書かれた小説が青空文庫などの形で、インターネット上で公開されている。形態素解析器MeCabに対応した、近代文語のための形態素解析辞書には近代文語UniDicがある。しかし、現在の近代文語UniDicでは青空文庫にある旧字旧仮名の作品の形態素解析には十分に対応していない。本研究では、青空文庫に旧字旧かなづかいのテキストと新字新かなづかいのテキストが両方存在する作品は186作品あることを利用して辞書を作成することを試みている。近代文語UniDicと現代語ipadicの辞書を用いた形態素解析で対応できなかった文字列を利用して追加登録する形態素を生成することを目指している。 |
E-005 |
(講演取消) |
E-006 |
深層感情分析に基づくデマ検知手法の開発
◎QU LIJING・成 凱(九州産業大学)
×
E-006深層感情分析に基づくデマ検知手法の開発
◎QU LIJING・成 凱(九州産業大学)
SNSでは誰でもリアルタイムで受発信することができるため、情報源の一つとして利用されている。一方、自由に発信された情報の中に正しい情報だけでなく、事実誤認や根拠のないウワサ話、流言飛語といったデマが拡散されるという社会問題が起こっている。デマは目新しく感じられ、接した人が驚きや恐れ、嫌悪感などを抱く特徴があるため、感情分析によってデマを効果的に検知できると期待される。しかし、テキスト解析による感情分析の精度が低く、それに基づくデマ検知では誤検出の割合が高いという問題が指摘されている。本研究は深層学習に基づく感情分析(深層感情分析)を用いてデマの特徴量を抽出し、機械学習モデルを構築する。 |
自然言語処理(分析・応用) |
9月13日(火) 15:30-17:30 3e会場
座長 後藤 淳(NHK) |
E-007 |
トピックモデルを用いた議会議事録分析
◎小島 智樹・八槇 博史(東京電機大学)
×
E-007トピックモデルを用いた議会議事録分析
◎小島 智樹・八槇 博史(東京電機大学)
国の動向を決定する議会の議事録を利用し、分析することで国の動向の予測を行うシステムの作成を行う研究を行った。政治、経済について議論している議会議事録には防衛や医療などの様々な分野の用語が含まれている。この議事録を機械学習で利用できるようにベクトルに変換する際、推論ベースでは利用される用語の多様性から議事録の特徴を抽出することが難しい。そこで、カウントベースであるトピックモデルを用いて単語ごとにどの分野の用語であるかを判別し議事録の分析を行う。分析したデータを利用し、議事録同士の派生関係を求め収集する。このデータを議会の行動と結果のデータセットとし、国の動向を予測するシステムの作成を目指す。 |
E-008 |
SO-PMIを用いた対話データに含まれる悪口対話の抽出システムの作成
◎山本 陽和・鈴木 海友(東京理科大学)・井上 啓(山陽小野田市立山口東京理科大学)・松澤 智史(東京理科大学)
×
E-008SO-PMIを用いた対話データに含まれる悪口対話の抽出システムの作成
◎山本 陽和・鈴木 海友(東京理科大学)・井上 啓(山陽小野田市立山口東京理科大学)・松澤 智史(東京理科大学)
本研究ではチャットボット等で学習で必要となる対話コーパスからSO-PMIによる対話の善悪判定に基づいて、悪口対話を抽出・除去し、非悪口対話のみで構築される対話コーパスの設計を行った。 方法として非悪口対話と悪口対話のコーパスを作成し、SO-PMI判定することで、非悪口対話のみのコーパスを再構築し、混同行列を基礎とした性能評価指標によりコーパスの精度を評価した。 結果、作成した悪口コーパスに関して、悪口コーパスとしての精度は約73%であり、誤った評価の原因として係り受け分析を行っておらず単語単体で数値化しているためと考察した。 また、対話のSO-PMI判定により再構成された対話コーパスの精度は約99%となったが、悪口対話コーパスの対話の割合が増えると非悪口対話と誤判定されるものも増えるため、再構成された対話コーパスの精度は下がると考察した。判定精度の向上には、係り受け分析等により、悪口コーパスの精度を上げることが必要になると考えられる。 |
E-009 |
カテゴリ階層に着目した商品レビュー評価項目についての一考察
○谷口 雅空・鈴木 信太郎・坂野 妃菜・宍戸 伶雅・工藤 竜矢・酒井 柊輔・延澤 志保(東京都市大学)
×
E-009カテゴリ階層に着目した商品レビュー評価項目についての一考察
○谷口 雅空・鈴木 信太郎・坂野 妃菜・宍戸 伶雅・工藤 竜矢・酒井 柊輔・延澤 志保(東京都市大学)
ECサイトにはさまざまな種類の商品が出品され,購入者が自由記述で商品についてあらゆる観点からレビューを書き込む.商品についての評価項目はカテゴリや商品によって異なる.例えば,商品における評価項目の違いは,同じ親カテゴリの商品でも子カテゴリの違いによっても見られ、商品ごとによっても評価項目の違いがあると考える. 商品カテゴリの粒度や商品によるレビュー内容の違いから,それぞれのカテゴリ階層における評価項目候補を抽出し比較することを本研究の目的とする. 本稿では,入力データである商品レビューの文書単位をカテゴリ粒度や商品ごとに変えることで,それぞれの評価項目候補を抽出し,これらの比較結果を報告する. |
E-010 |
事前学習済みモデルを利用した日本語小論文採点手法の構築
◎藩 宇偉・竹内 孔一(岡山大学)
×
E-010事前学習済みモデルを利用した日本語小論文採点手法の構築
◎藩 宇偉・竹内 孔一(岡山大学)
本研究では、近年、自然言語処理の研究に利用されている大規模事前学習モデルを利用して、日本語の小論文に対する採点手法の構築について議論する。具体的にはEncoderモデルであるBERT、DecoderモデルであるGPT-3をそれぞれ利用した採点モデルを作成して、その性能を比較する。GPT-3は基本的には英語のモデルであるが、日本語の情報も入っており、どの程度推定できるかを明らかにする。日本語の採点済み小論文は言語資源協会から配布されている小論文データを利用する。小論文データには複数の課題があるため、それぞれの課題において、学習データを利用してファインチューニングを適用して、テストデータの点数を推定する。それぞれの評価結果から両モデルの特徴について考察する。 |
E-011 |
化学分野における特許発明の効果を予測する深層学習モデル
○高橋 林太郎・正田 備也(立教大学)
×
E-011化学分野における特許発明の効果を予測する深層学習モデル
○高橋 林太郎・正田 備也(立教大学)
特許出願の審査において、出願に係る「発明の効果」は特許取得の可否に大きく影響を与えるセクションである。特に化学分野の発明は、機械分野等と異なり、その構成を元に発明が奏する効果を予測するのが困難である。そのため従来技術からは予測できない効果が奏される場合、特許性が肯定される確率が高まる。本研究では、「重合体」に関する出願について、「接着性」の効果を記載するものと、接着性とは一見相容れない「剛直性」等の効果を記載するものとのテキスト情報を学習データとして、それらの何れに該当するかを予測する2クラス分類問題を解くためのモデルを作成した。テストデータによる正解率は90%以上と高い値を示した。 |
E-012 |
生活保護業務支援のための質問応答システムの開発と評価
○堂坂 浩二・金子 和樹(秋田県立大学)・木村 幸司(北日本コンピューターサービス)・伊東 嗣功・石井 雅樹(秋田県立大学)
×
E-012生活保護業務支援のための質問応答システムの開発と評価
○堂坂 浩二・金子 和樹(秋田県立大学)・木村 幸司(北日本コンピューターサービス)・伊東 嗣功・石井 雅樹(秋田県立大学)
生活保護業務支援のための質問応答システムの構築した。質問応答システムとは、ケースワーカーが業務に関する質問を自然言語(日本語)で入力したとき、生活保護手帳等の業務文書の該当箇所を検索し提示するシステムである。これにより、ケースワーカーの業務効率が改善し、生活保護システムの付加価値が向上することが期待される。質問応答システムは、大量の質問・応答対から成る質問応答 (QA) データベースと、入力質問文に類似した質問・応答対をQAデータベースから検索する質問応答アルゴリズムから成る。(1)データベースの言い換え質問による拡張、 (2)文章のベクトル化手法としてBERTおよびSBERTを用いたシステム構築を行った。ベクトル化手法SBERTと、言い換え質問によるデータベース拡張により、正答率が向上することを示した。 |
音楽・音声 |
9月14日(水) 9:30-12:00 4e会場
座長 堀内 靖雄(千葉大学) |
E-013 |
見通しを立てながら進める作業効率を上げるための楽曲要因の調査
◎嘉数 景・原田 史子・島川 博光(立命館大学)
×
E-013見通しを立てながら進める作業効率を上げるための楽曲要因の調査
◎嘉数 景・原田 史子・島川 博光(立命館大学)
本論文は楽曲の周波数やテンポなどに着目して,人が作業の見通しをつけるための思考を円滑に進めるために適切な楽曲を調査する. 人は作業を完了するために見通しをつけようと思考し,見通しがついたあとはその流れに沿って作業を実行する.しかし,既存の推薦手法では人の好みに合わせた手法が多く,作業効率を上げるための手法が少ない.楽曲には周波数・テンポなどの特徴があり各特徴が人に与える効果は異なると考えられる.提案者らは見通しの有無を測る手法を開発しており,予測精度・f値ともに約0.9の結果を残している.そこで,その手法を用いて見通しを持って作業するときに適切な楽曲の要因を調べ,作業を円滑にする. |
E-014 |
隠れマルコフモデルを用いたピアノ練習演奏の弾き間違い分析
◎加藤 徳啓(釧路工業高等専門学校)・中村 栄太(京都大学)・峯 恭子(大阪大谷大学)・土江田 織枝・山田 昌尚(釧路工業高等専門学校)
×
E-014隠れマルコフモデルを用いたピアノ練習演奏の弾き間違い分析
◎加藤 徳啓(釧路工業高等専門学校)・中村 栄太(京都大学)・峯 恭子(大阪大谷大学)・土江田 織枝・山田 昌尚(釧路工業高等専門学校)
本稿は,保育士あるいは幼稚園教諭を目指すピアノ学習者の演奏からミスを可視化し演奏者にフィードバックするシステムを構築するための準備として,学生の演奏ミスを中心に分析するものである。今回対象としたデータは1年間にわたり実施された初心者の大学生によるピアノ授業での練習演奏である。ここから10人の演奏について無音区間などを削除してデータを区切り,約15000件のなかから800件の演奏データを無作為に抽出し演奏ミスの確認を行った。演奏楽曲と演奏との対応付けは,隠れマルコフモデルを用いて楽譜のデータと学生の演奏のデータを対応付けることにより行った。その結果をもとに,演奏ミスを種類別に分け学習者や演奏曲ごとに分析した。 |
E-015 |
ピアノフレーズ練習のAI採点のための音特徴量比較方式
○細田 真道(NTT東日本)・内山 匡(NTT-AT)・最知 庸・小林 丈之(NTT東日本)・笹生 恵理(東音企画)・山内 竣平・野口 啓之(ピティナ)・阪内 澄宇(NTT東日本)
×
E-015ピアノフレーズ練習のAI採点のための音特徴量比較方式
○細田 真道(NTT東日本)・内山 匡(NTT-AT)・最知 庸・小林 丈之(NTT東日本)・笹生 恵理(東音企画)・山内 竣平・野口 啓之(ピティナ)・阪内 澄宇(NTT東日本)
我々はピアノ教室で生徒に課す宿題の効果を大きくするため自宅練習を補助するhiketaシステムの実現を目指しており,そのためには指導者不在でも演奏良否が判定できるAI採点をする必要がある.MIDI鍵盤であれば生徒演奏をMIDI収録して詳細に比較採点できるが非対応のアコースティックピアノを所有する生徒は多い.本稿はアコースティックピアノであっても広くAI採点が利用できるように生徒演奏を録音して特徴量を抽出し,予め登録した模範演奏や複数の間違い演奏のモデルと比較して良否やどの間違いであったかを検出する方式を提案する.そして有効性を確かめるため複数の環境における演奏を判定する評価実験を実施する. |
E-016 |
スペクトル特徴に応じた時間・周波数分解能を学習可能なMulti Window Lengths U-Netによる楽曲音源分離
◎坂藤 隆我・荒井 秀一(東京都市大学)
×
E-016スペクトル特徴に応じた時間・周波数分解能を学習可能なMulti Window Lengths U-Netによる楽曲音源分離
◎坂藤 隆我・荒井 秀一(東京都市大学)
楽曲音源分離とは複数の楽器で構成される音源から目標音源を分離する研究分野である. 近年, 楽曲音源分離ではU-Netのような周波数領域での処理を用いた深層学習法が提案されている. しかし, これらの手法が入力として扱うスペクトログラムは, 時間分解能と周波数分解能がトレードオフの関係にあるため, 既に目標音源とそれ以外の音源のスペクトルが混ざっている. 本稿では, この問題を解決するためにスペクトル特徴に応じた時間・周波数分解能を学習可能なMulti Window Lengths U-Netを提案する. |
E-017 |
ディープラーニングを用いた潜在表現による感情を表現する音声合成の実現
◎鎌田 凌輔・土屋 誠司・渡部 広一(同志社大学)
×
E-017ディープラーニングを用いた潜在表現による感情を表現する音声合成の実現
◎鎌田 凌輔・土屋 誠司・渡部 広一(同志社大学)
音声合成によって音声を生成する際に,感情を表現する音声を合成することである声合成によって生成された音声が,聞き手に意図や感情 を想起させるような韻律で発話を行うことができれば,聞き手が理解しやすい会話を行うことができると考える.そこで本研究では教師なし学習である Variational Autoencoder(VAE)を使用して,音声を学習することで,音声に含まれる感情の特徴を抽出し,学習することを目的とする |
E-018 |
ACE法による中国語音声の聴取改善技術開発
◎ヨウ ケイガイ・阪田 治(東京理科大学)
×
E-018ACE法による中国語音声の聴取改善技術開発
◎ヨウ ケイガイ・阪田 治(東京理科大学)
振幅圧縮伸長法(ACE法)は感音性難聴者の語音聴取改善に資する音声処理技術として開発されたが、副作用的に騒音環境下における健常者の語音聴取改善にも有効であることが確認されている。しかしそれは日本語に限定したものであり、日本語以外の言語における有効性について調査・研究を行った。本研究では特に中国語音声に焦点を当て、ACE法をベースとした音声処理技術によって騒音環境下における中国語発話の聴取改善技術の研究を行った。まず、中国語音声と日本語音声と比較し、その特性に基づいて、日本語処理用のACE法を中国語音声用へ適用変更するための方法を検討した。中国語母語話者を対象に提案法による聴取実験を行った結果、騒音環境下の処理後音声の聴取精度の向上が確認された。 |
E-019 |
同時通訳者音声認識に向けた原言語テキストを補助入力とするTransformer音声認識
◎谷口 秀太・加藤 恒夫・田村 晃裕(同志社大学)・安田 圭志(マインドワード)
×
E-019同時通訳者音声認識に向けた原言語テキストを補助入力とするTransformer音声認識
◎谷口 秀太・加藤 恒夫・田村 晃裕(同志社大学)・安田 圭志(マインドワード)
同時通訳者の訓練プログラムでは,訓練生の通訳音声をテキストに書き起こして通訳の品質評価が行われる.書き起こしの労力を軽減するために音声認識の導入が期待されている.訓練プログラムでは素材が予め用意されるため,原言語テキストを音声認識に利用することができる.そこで,原言語テキストを補助入力とするTransformerベースのEnd-to-end音声認識を提案する.大量の原言語テキスト付き通訳音声は存在しないため,End-to-end音声翻訳用に開発された大規模コーパスを用いて提案モデルの学習と評価を行った.3種類の異なる原言語を用いる4種類の英語音声認識でいずれも単語誤り率の削減を確認した. |
自然言語処理(情報抽出) |
9月14日(水) 15:30-17:30 5e会場
座長 田村 晃裕(同志社大学) |
E-020 |
保守文書に記載される故障表現間の関係性抽出技術の開発
◎我妻 正太郎・照屋 絵理・竹内 理(日立製作所)
×
E-020保守文書に記載される故障表現間の関係性抽出技術の開発
◎我妻 正太郎・照屋 絵理・竹内 理(日立製作所)
製造業では、製品に起こった現象に対応した適切な保守作業手順を推薦するリペアレコメンドサービスが求められている。サービス実現には過去保守実績をまとめた保守文書から、現象とその原因、処置といった故障表現間の関係性を示すデータを抽出する必要がある。しかし、報告書は非定型かつ数が少なく、既存手法では関係性抽出精度が低い。そこで、関係付けるべき現象・原因・処置は、対象とする部品名が一致するもしくはBOM上距離が近い、という特徴を用いた関係性抽出技術を開発した。開発技術により、既存技術より正答率が約30%向上し、サービス実現に不可欠なデータを保守文書から自動抽出することが可能となった。 |
E-021 |
TOPIX100の有価証券報告書に含まれる表形式データの分析
◎佐藤 栄作・梶 縁・木村 泰知(小樽商科大学)
×
E-021TOPIX100の有価証券報告書に含まれる表形式データの分析
◎佐藤 栄作・梶 縁・木村 泰知(小樽商科大学)
本研究では、TOPIX100の有価証券報告書に含まれる表形式データを対象として、表の項目の表記ゆれ、及び、曖昧性について調査する。 また、表の項目に含まれる金額表現と本文で説明されている箇所を人手で対応づけることにより、有価証券報告書における構造化データと非構造化データを自動で対応付ける場合の問題点を明らかにする。 |
E-022 |
固有表現抽出のためのパープレキシティを用いた外部情報検索
○美野 秀弥・後藤 淳・山田 一郎(NHK放送技術研究所)
×
E-022固有表現抽出のためのパープレキシティを用いた外部情報検索
○美野 秀弥・後藤 淳・山田 一郎(NHK放送技術研究所)
固有表現抽出は文書中から人名,地名,組織名などの固有表現を抽出する技術であり,情報検索や自然言語理解などのアプリケーションに活用可能な自然言語処理の重要な基盤技術の1つである.本論文では固有表現抽出の精度を向上させる新たな手法を提案した.外部知識を活用して固有表現抽出の精度を向上させる手法が近年提案されている.提案手法は外部知識を用いた既存手法の問題点を洗い出し,その問題を低減させる手法を提案した.複数のデータセットを用いた実験を行い,提案手法の効果を確認した. |
E-023 |
Extraction of Evaluative Elements for Cross-prompt Automated Essay Scoring
○佐々木 透・正田 備也(立教大学)
×
E-023Extraction of Evaluative Elements for Cross-prompt Automated Essay Scoring
○佐々木 透・正田 備也(立教大学)
Automated Essay Scoring (AES) systems attempt to autonomously evaluate student-written essays with machine learning models. Existing AES trials are mostly based on supervised learning, which requires a large collection of human-rated essays for model training. This has limited the applicability of AES to real-life scenarios. Contextualised word embeddings obtained from pretrained language models are expected to implicitly contain wide variety of information of the target text, not just limited to semantics. This study explores to extract evaluation-related elements in the essay data seen as a partial structure of such embeddings without prior finetuning with the human-rated score information. |
E-024 |
Web小説の見出しに有用なキーフレーズの自動抽出の検討
◎古川 拓実・菱田 隆彰(愛知工業大学)
×
E-024Web小説の見出しに有用なキーフレーズの自動抽出の検討
◎古川 拓実・菱田 隆彰(愛知工業大学)
近年,見出しの自動生成について研究が盛んだが,小説やブログなど娯楽性が求められる領域の研究は少ない.本研究では,娯楽性を考慮したWeb小説の見出しを自動生成するためのキーフレーズ抽出方法について検討を行う.基本的な方法にはグラフベースの手法や統計ベースの手法がある.しかし,これらはフレーズをグループ分けしないので,見出し生成時に間違った用法を誘引する.固有表現認識はタグづけによってグループ分けを行うが,一般的な固有表現認識データセットになされるタグづけは娯楽性を考慮した見出し生成には不十分である.筆者は娯楽性を考慮したフレーズを抽出するために固有表現認識データセットを作成し,評価を行う. |
E-025 |
小説テキストからの「ような」表現に基づく直喩表現抽出手法の検討
◎宮脇 星名・安藤 一秋(香川大学)
×
E-025小説テキストからの「ような」表現に基づく直喩表現抽出手法の検討
◎宮脇 星名・安藤 一秋(香川大学)
比喩とは,ある物事を別の事柄に例えることで,文字通りの表現以外の情報を表現・伝達する修辞技法である.比喩表現は幾つかに分類され,その中でも直喩表現では「ような」といった特定の比喩指標が使われる傾向にある.本稿では,小説テキストに出現する「ような」表現に着目し,「名詞Aのような名詞B」と「動詞Aような名詞B」に基づく直喩表現を抽出対象とする.近年,機械学習を用いたアプローチが主流ではあるが,本稿では機械学習を用いずに規則のみを用いて直喩表現を抽出する手法について検討する.そして,規則による抽出手法の限界を確認すると共に,問題点を分析し,抽出性能を改善する手法について検討する. |
自然言語処理(文書分類・情報検索) |
9月15日(木) 9:30-12:00 6d会場
座長 竹内 孔一(岡山大学) |
E-026 |
同行者と旅行目的に基づく旅館レビュー分類のためのカテゴリの検討
◎坂野 妃菜・谷口 雅空・鈴木 信太郎・工藤 竜矢・宍戸 伶雅・酒井 柊輔・延澤 志保(東京都市大学)
×
E-026同行者と旅行目的に基づく旅館レビュー分類のためのカテゴリの検討
◎坂野 妃菜・谷口 雅空・鈴木 信太郎・工藤 竜矢・宍戸 伶雅・酒井 柊輔・延澤 志保(東京都市大学)
本研究では,同行者と旅行目的に合った宿泊施設の選択の支援を目的とする.本稿では,ユーザにとっての有用な意見は同じ同行者や目的をもった他ユーザのレビューに含まれていると考える.そこで,他ユーザのレビューから「子供連れ」「夫婦」「高齢者連れ」「学生」「卒業旅行」など,同行者や目的ごとのカテゴリを検討する. 「子供連れ」や「夫婦」などに分類したレビュー群から特徴語を抽出し,ユーザの同行者や目的に関する特徴を表すような語を調査した.カテゴリによっては特徴を明確に表す語がないなどの問題があることを確認したが,「子供連れ」では「小学生」や「家族旅行」などの特徴を表す語が見受けられた. |
E-027 |
BERTを用いた日本語小説中の発話文の発話者分類
◎銭本 友樹・宇津呂 武仁(筑波大学)
×
E-027BERTを用いた日本語小説中の発話文の発話者分類
◎銭本 友樹・宇津呂 武仁(筑波大学)
本論文では,日本語の小説内の発話者の特徴分類モデルを用いて,小説内発話文 の発話者分類を行う手法について述べる. 発話中で使用される日本語の一人称 や助詞・助動詞などの文体は,発話者の個性(典型的には性別等)によって変化する 傾向がある.そこで本論文では,「俺」および「私」の二種類の対照的な一人称に 着目し,それらを含む発話文をそれぞれウェブ上の小説テキストから収集し, 発話文データセットを構築した.このデータセットを訓練事例としてBERTを fine-tuningすることにより,発話文の発話者の特徴分類モデルを構築した.そ して,恋愛小説の主要登場人物である男女二人を対象とした発話者分類タスクに 対してこの発話者の特徴分類モデルを適用し,87.9%の識別率を達成した. |
E-028 |
観光口コミのWeb情報との内容一致度による事実性判定
◎鈴木 麻耶・福本 淳一(立命館大学)
×
E-028観光口コミのWeb情報との内容一致度による事実性判定
◎鈴木 麻耶・福本 淳一(立命館大学)
観光口コミは、主に旅行の計画を立てる際の情報収集として用いられる。しかし、口コミの中には本 当かどうか分からないものや憶測で書かれているものも存在する。このような嘘の情報を信用すると、計画に支障が出る可能性がある。そこで本研究では、口コミに書かれている内容と Web 情報を照合することで事実性の判定を行う。口コミ文の内容を分割し、同じ内容がWebにも書かれているかで事実性確認が行えるかを検討した。 |
E-029 |
ニュース原稿におけるラベル共起情報に基づくラベル平滑化手法
◎安田 有希・後藤 淳(NHK放送技術研究所)
×
E-029ニュース原稿におけるラベル共起情報に基づくラベル平滑化手法
◎安田 有希・後藤 淳(NHK放送技術研究所)
放送局では、日々多くのニュース原稿が執筆され、蓄積される。そのような大量の原稿データを利活用するために、分類ラベルの自動付与は重要な課題である。文書は複数のトピックから構成されるため、ニュース原稿の分類はマルチラベルテキスト分類のタスクとして捉える事ができる。ニュース原稿から構築される分類データには、対象とする内容が幅広く、ラベルの数が多いという特徴がある。そのようなデータでは、各ラベルの出現頻度が不均衡な分布となってしまい、モデルの精度が低下してしまう。そこで、本研究では複数のニュース原稿にまたがるラベルの共起情報に着目し、各ラベルの平滑化の度合いを自動で調節するラベル平滑化手法を提案する。 |
E-030 |
小説検索のための同義タグの認識に関する一考察
◎鈴木 信太郎・坂野 妃菜・谷口 雅空・工藤 竜矢・宍戸 伶雅・酒井 柊輔・延澤 志保(東京都市大学)
×
E-030小説検索のための同義タグの認識に関する一考察
◎鈴木 信太郎・坂野 妃菜・谷口 雅空・工藤 竜矢・宍戸 伶雅・酒井 柊輔・延澤 志保(東京都市大学)
小説投稿サイトでは,作者により小説にタグが付与されている. 読者は作者の登録したタグ等を用いて作品の検索を行う. しかし, タグは作者の自由記述により登録されており,少数の作品のみにつけられたタグが非常に多い. また, 作品に付けられたタグの中には類似する物が数多く存在する. そのため, 読者は目的にあったタグを指定することが困難になっていると考えられる. そこで本研究では, 読者の検索にかかる負担を軽減することを目的に, 同等の意味を持つと考えられるタグの認識を行う. |
自然言語処理(テキスト整形・平易化・評価) |
9月15日(木) 9:30-12:00 6e会場
座長 木村 泰知(小樽商科大学) |
E-031 |
BERTによる日本語文章の難易度推定
◎郷原 聖士・綱川 隆司・西田 昌史・西村 雅史(静岡大学)
×
E-031BERTによる日本語文章の難易度推定
◎郷原 聖士・綱川 隆司・西田 昌史・西村 雅史(静岡大学)
本研究では、日本語の事前学習モデルBERTを用いて文章の難易度を推定する手法を提案する。現代日本語書き言葉均衡コーパスに含まれる図書館サブコーパスとその文体情報に日本語教科書コーパスを加えた約9千件の文章を用いて、BERTをベースに難易度に基づく文書分類を行うようにfine-tuningし、5段階の難易度に分類した。なお、難易度には図書館サブコーパスの文体情報の「専門性」及び日本語教科書コーパス中の対象学年を用いた。評価実験から、約80%の正解率で分類出来ることを確認した。また、小中学校で学ぶものの、日常生活では用いない語彙を含む低難易度の文章を、中難易度に分類する例があり、今後の課題である。 |
E-032 |
やさしい日本語へのテキスト平易化のための訓練データの精選
◎畠垣 光希・梶原 智之・二宮 崇(愛媛大学)
×
E-032やさしい日本語へのテキスト平易化のための訓練データの精選
◎畠垣 光希・梶原 智之・二宮 崇(愛媛大学)
近年,日本に定住する日本語非母語話者が増加しており,理解しやすい「やさしい日本語」による情報伝達の重要性が増している.テキスト平易化の先行研究では,難解な文と平易な同義文からなるパラレルコーパスを用いて系列変換モデルを訓練するのが一般的である.しかし,日本語におけるテキスト平易化のための訓練データには,無理な平易化をしている文対があり,これらのノイズが訓練に悪影響を与えている可能性がある.本研究では,ノイズとなる訓練事例をフィルタリングするための複数の手法を検討し,テキスト平易化モデルの性能を改善する.評価実験の結果,特に文長差に基づく手法が有効であることが分かった. |
E-033 |
トポロジカルソートに基づく日本語文の語順整序
◎孫 鵬(名古屋大学)・大野 誠寛(東京電機大学)・松原 茂樹(名古屋大学)
×
E-033トポロジカルソートに基づく日本語文の語順整序
◎孫 鵬(名古屋大学)・大野 誠寛(東京電機大学)・松原 茂樹(名古屋大学)
日本語では,文法的には間違っていないものの読みにくい語順を持った文が作成される場合がある.本稿では,推敲支援のための要素技術として,読みにくい語順をもった日本語文を読みやすい語順に整える手法を提案する.本手法では,BERTを用いて1文内のあらゆる2文節間の前後関係を推定し,その推定した前後関係をエッジ,各文節をノードとするグラフに対して,トポロジカルソートを実行することにより,文節を並べ替える.新聞記事中の文から擬似的に作成した読みにくい語順の文を用いて評価実験を行った. |
E-034 |
BERTを用いた日本語文のボトムアップ語順整序
◎山添 壮登・大野 誠寛(東京電機大学)・松原 茂樹(名古屋大学)
×
E-034BERTを用いた日本語文のボトムアップ語順整序
◎山添 壮登・大野 誠寛(東京電機大学)・松原 茂樹(名古屋大学)
日本語は語順が比較的自由であるといわれているが,語順に関する選好がないわけではない.そのため,文法的な誤りがないだけでなく,読みやすい語順の文を生成する技術は文生成において重要な技術となる.本稿では,文節間の係り受け関係が既知という前提のもと,任意の受け文節に係る文節集合内の文節を適切な順序に並べ,1文全体をボトムアップに語順整序する手法を提案する.本手法では,同一文節に係る2文節間の前後関係をBERTにより推定し,その確率値を用いて語順を決定する.京大テキストコーパスを用いて評価実験を行い,提案手法の有効性を確認した. |
E-035 |
文法性判定に基づくクエリ指向の文圧縮
◎林 律希・加藤 芳秀・松原 茂樹(名古屋大学)
×
E-035文法性判定に基づくクエリ指向の文圧縮
◎林 律希・加藤 芳秀・松原 茂樹(名古屋大学)
ユーザのクエリに焦点を当てた文圧縮は,Web検索の結果の提示などにおいて有用である.従来の手法では,原文,クエリ,圧縮文の組からなる学習用データを用いて文圧縮モデルを構築するが,その作成にはコストがかかり,実際には疑似的に作成した学習データを用いるにとどまっている.そこで本論文では,そのような学習データを必要としない文圧縮手法を提案する.本手法では,依存構造に基づき圧縮文の候補を求め,既存の文法性判定手法を用いて文法的に正しい圧縮文を選択する.圧縮文の候補は,クエリを含むという制約のもとで選ばれるため,クエリに焦点を当てた文圧縮が実現できる. |
E-036 |
OCRを利用した崩れた表記の自動修正手法の性能評価
◎秋山 大五郎・松原 雅文(岩手県立大学)
×
E-036OCRを利用した崩れた表記の自動修正手法の性能評価
◎秋山 大五郎・松原 雅文(岩手県立大学)
近年,SNSは多くのユーザが積極的に情報を発信する場となっている.多種多様なユーザが発信するデータは膨大であり,それらのデータを利用する動きも活発になっている.しかし,SNS上のショートメッセージには崩れた表記の単語が含まれるためデータを活用しにくい課題がある.そこで我々は,OCRを利用した崩れた表記の自動修正手法を提案している.しかし,提案手法では,スコアリングに形態素解析器の連接スコアのみを採用していたため修正候補選出が不十分といった課題があった. そこで,本稿では,提案手法のスコアリング処理などを変更し,これの性能評価を崩れた表記が含まれるデータを用いて行った結果を報告する. |
E-037 |
顧客エンゲージメントを高めるシナリオの評価基準の設計
◎上原 大暉・島川 博光(立命館大学)
×
E-037顧客エンゲージメントを高めるシナリオの評価基準の設計
◎上原 大暉・島川 博光(立命館大学)
顧客の感情を動かす効果的なストーリーとは何なのかは,未だ専門家の技に依存し体系化されていない.訴求力のある広告作成を専門企業に依頼することは,中小企業にとって大きな負担である.そこで,中小企業が自作した広告用シナリオの評価基準を設計することを提案する.多様な広告の視聴から得られるヒトの生理反応を分析することで,ヒトが感情を動かされるストーリーを読んだとき,瞳孔と皮膚電位が強く反応することがわかった.この生体反応を利用し,シナリオを評価する基準を数式化する.この基準を用いることで,自作したシナリオが顧客の興味を惹くシナリオであることを評価できるだけでなく,シナリオの改善を促すことができる. |
自然言語処理(言語モデル) |
9月15日(木) 13:10-15:40 7d会場
座長 松原 雅文(岩手県立大学) |
E-038 |
BERTを用いた語連想タスクにおけるカテゴリー指定効果の分析
◎富島 諒・相馬 佑哉・堀内 靖雄・黒岩 眞吾(千葉大学)
×
E-038BERTを用いた語連想タスクにおけるカテゴリー指定効果の分析
◎富島 諒・相馬 佑哉・堀内 靖雄・黒岩 眞吾(千葉大学)
本稿では, BERTに「刺激語、…、刺激語から連想する言葉は[MASK]です。」との入力を行い, MASKに人が正解とする連想語を出力させる語連想タスクに関する検討を行った. この際, 「言葉は」の代わりに「国名は」等の正解カテゴリーを指定する語を用いることで精度は向上する. そこで本稿では,カテゴリー指定効果を分析するため, 正解カテゴリーを指定する語を用いた場合と用いない場合での出力語の違いの分析や, MASKをqueryとするattention weightの比較・可視化を行った.さらに, 「刺激語、…、刺激語から連想する[MASK]は連想語です。」と入力し,カテゴリー指定語を出力可能かの調査も行った. |
E-039 |
Answer Selectionにおけるトリプレットロスを用いた再学習
◎鈴木 悠真・堀内 靖雄・黒岩 眞吾(千葉大学)
×
E-039Answer Selectionにおけるトリプレットロスを用いた再学習
◎鈴木 悠真・堀内 靖雄・黒岩 眞吾(千葉大学)
Answer Selection(AS)とは,質問に対する多数の回答候補の中から正解情報が含まれている文を選択するタスクである.本稿では,質問文と回答候補文をBERT/RoBERTaで埋め込み表現とし,そのcos類似度等を用いて回答候補のランク付を行う手法において,埋め込み表現を再学習する手法を検討した.具体的には,まず既存の手法(交差エントロピー誤差)でBERT/RoBERTaをfine-tuningし,そのfine-tuning学習時に間違えた問題のみを用いてトリプレットロスにより再学習を行う.AS用のデータセットであるTrecQAとWikiQAを用いた実験の結果,再学習前によりMMRおよびMAPが向上した. |
E-040 |
BERTによる語連想タスクでのシャープレイ値を用いた連想根拠の提示
◎問井 拓海・相馬 佑哉・堀内 靖雄・黒岩 眞吾(千葉大学)
×
E-040BERTによる語連想タスクでのシャープレイ値を用いた連想根拠の提示
◎問井 拓海・相馬 佑哉・堀内 靖雄・黒岩 眞吾(千葉大学)
本稿では,BERTを用いて5つの刺激語から連想語をMASKとして予測するタスクを対象に,刺激語の貢献度(=連想根拠)を,shapley値に基づく手法とAttentionの値で表す手法で比較を行った.shapley値に基づく手法では,ある刺激語の追加によるMASKトークンにおける正解連想語のスコア(Softmax関数を適用する前の値,logits)の増減から,5つの刺激語それぞれのshapley値を計算した.比較実験として,各々の手法で値の高い1〜4語の刺激語で予測を行った結果のMRR(平均逆順位)を求めた.その結果shapley値に基づく手法のMRRが高く,BERTによる連想の根拠としてAttentionの値で表す手法よりも有効であることを確認した. |
E-041 |
Sentence-BERTによる日本語文の話題分析
◎圓谷 顯信・上原 稔・安達 由洋(東洋大学)
×
E-041Sentence-BERTによる日本語文の話題分析
◎圓谷 顯信・上原 稔・安達 由洋(東洋大学)
近年、日本語文を話題に基づいてクラス分類する研究が盛んに行われている。しかし、クラス分類モデルの構築にはクラス集合の選択や各クラスに対応する教師ラベル付きデータセットを作成する必要があり、これらの作業は多大な労力を要する。本研究ではSentence-BERTを特徴抽出器として使用し、得られた分散表現をWard法によりクラスタリングすることで日本語文の話題に基づく分類実験を行った。また、分散表現のコサイン類似度による類似文検索実験も行った。Sentence-BERTにより、Word2VecやBERTと比較して高い精度で日本語文をクラスタリングし、形成したクラスタに対して適切なラベルを付加できた。本手法により、教師データ作成が不要となり、また、予め想定していない意見の発見・抽出も期待できる。 |
E-042 |
国会会議録を用いた事前学習済みELECTRAの構築と政治ドメインのタスクによる検証
◎永渕 景祐(北海道大学)・木村 泰知(小樽商科大学)・荒木 健治(北海道大学)
×
E-042国会会議録を用いた事前学習済みELECTRAの構築と政治ドメインのタスクによる検証
◎永渕 景祐(北海道大学)・木村 泰知(小樽商科大学)・荒木 健治(北海道大学)
事前学習済みTransformerモデルは,特定のドメインのコーパスを事前学習に用いることで,そのドメインのタスクで高い精度を示すことが知られている.日本語の事前学習済みTransformerモデルにおいても,ビジネスや金融に特化したモデルがいくつか公開されている.しかし,政治ドメインに特化させて事前学習を行なったモデルは我々の知る限り公開されておらず,研究の余地がある. 本研究では,国会会議録から構築したコーパスを用いて,事前学習済みELECTRAを構築する.ELECTRAは,少ない計算時間で高い精度を示すことができるモデルである.また,政治ドメインのタスクとして,NTCIR-16 QA Lab-PoliInfo-3のBudget Argument Miningのデータセットを用いて,汎用モデルとの比較を行う. |
自然言語処理(生成・応用) |
9月15日(木) 13:10-15:40 7e会場
座長 梶原 智之(愛媛大学) |
E-043 |
GPT-2を用いた歌詞生成とその分析
◎笠松 雅史・青野 雅樹(豊橋技術科学大学)
×
E-043GPT-2を用いた歌詞生成とその分析
◎笠松 雅史・青野 雅樹(豊橋技術科学大学)
2019年2月にOpenAIからGPT-2が発表され,高性能なテキスト生成が可能となった. 私たちはその中で,深層学習を用いた自然言語処理の中ではまだあまり着目されていない歌詞を対象にGPT-2を用いて歌詞の自動生成を行う. そして生成された歌詞の特徴の分析を行うことを目的とする. 本研究では,著名な作詞家11人の曲を用いてGPT-2の学習を行った. 次に学習したモデルを用いて,学習した歌詞の冒頭を入力として歌詞の生成を行う. そして生成された歌詞と元の歌詞のBLEUスコアを算出し,生成された歌詞の特徴について分析を行った. |
E-044 |
キャプション自動生成におけるBERTScoreの有効性について
◎対馬 陣・松原 雅文(岩手県立大学)
×
E-044キャプション自動生成におけるBERTScoreの有効性について
◎対馬 陣・松原 雅文(岩手県立大学)
近年,自然言語生成における自動評価指標として,BERTScoreが提案されている. BERTScoreでは,事前学習されたBERTから得られるベクトル表現を利用して, 文章間の類似度を評価しており,機械翻訳や自動キャプション生成における既存の評価手法と比べて, 人手評価値との相関が高いことが示されている. しかし,英語や中国語などの言語については有効性が示されているが, 日本語文評価についての有効性は示されていない. そこで,本稿では,日本語学習済みモデルを適用してBERTScoreを算出し, 生成されたキャプションにおいて,BERTScoreによる文章評価が有効であるかどうかを検証する. |
E-045 |
概念ベースを用いたなぞかけ自動生成システムの構築
◎小林 優介・渡部 広一・土屋 誠司(同志社大学)
×
E-045概念ベースを用いたなぞかけ自動生成システムの構築
◎小林 優介・渡部 広一・土屋 誠司(同志社大学)
なぞかけは,「AとかけてBと解きます.そのこころはどちらもCです.」といった形で表現され,関連性を持った単語をA,B,Cに当てはめて楽しむ言葉遊びである.近年なぞかけは発想力,語彙力の面などからビジネススキルを向上させるとして,注目されつつある.しかし、身近になぞかけを楽しむコンテンツが少ないため、一般的ではなく世間に広まっていないと見受けられる.そこで本研究では,概念ベースを用いて、ユーザーが気軽になぞかけを楽しめるシステムを構築した. |
E-046 |
Twitterデータによる性別を付与した雑談対話システムの構築
◎大城 昂希・姜 東植(琉球大学)
×
E-046Twitterデータによる性別を付与した雑談対話システムの構築
◎大城 昂希・姜 東植(琉球大学)
深層学習ベースの雑談対話システムでは、不特定多数のユーザの発話を学習させることから、生成された応答のキャラクタに関する一貫性が保たれないことが問題の一つとして取り上げられている。この問題に関する既存の研究として、特定キャラクタの発話ペアを利用したものや語尾などを置換するものが存在しており、特に強化学習を用いたキャラクタ性の付与は対話形式のデータが必要がないため多くの場合で活用できると考える。そこで本研究では、Twitterから収集した発話データをユーザの性別という視点で分類し、応答生成モデルのfine-tuningに使用することで、男性または女性らしい発話が生成できるか確認する。 |
E-047 |
シズルワードの拡張による土産レビュー文抽出の検討
◎在間 雅人・安藤 一秋(香川大学)
×
E-047シズルワードの拡張による土産レビュー文抽出の検討
◎在間 雅人・安藤 一秋(香川大学)
ブログやSNSなどユーザが発信するテキスト上には、現地でしか買えない土産に関する情報が散在している。オンライン販売を開始した店舗が増えたため、現地でしか買えない、手に入りにくいといった希少価値のある土産の選択・入手がより一層難しくなっている。当研究室では、ユーザが発信するテキストから食品系の土産情報の抽出・整理して、”現地でしか買えない”や”期間限定”といった希少価値を判定し、レビュー情報とともに提示するシステムの構築を進めている。本稿では、先行研究で提案したブログ記事からレビュー文を抽出する手法の性能向上を目指し,シズルワードの拡張による改良手法について検討する。 |
E-048 |
Web閲覧中のユーザの視線に基づく関連情報提示システムの開発及び評価
◎森 大河・山田 光穗(東海大学)・石井 英里子(鹿児島短期大学)・星野 祐子(東海大学)
×
E-048Web閲覧中のユーザの視線に基づく関連情報提示システムの開発及び評価
◎森 大河・山田 光穗(東海大学)・石井 英里子(鹿児島短期大学)・星野 祐子(東海大学)
近年情報通信技術の普及により情報収集の多くがWeb閲覧によるものへと変化しており,それに伴いデジタルディバイドが社会問題の一つとなっている.そのためWeb閲覧を支援する取り組みは盛んにおこなわれている.一方で生体情報をWeb閲覧の支援に用いた例は少ない.そこで本研究ではWeb閲覧中のユーザの視線情報をもとに文章を抽出し検索キーワードを推薦するWeb検索支援システムの開発を試みた.検証により興味のあるトピックに合わせて推薦されるキーワードが変化することを確認しユーザの検索意図を反映させた推薦が可能であった. |
E-049 |
深層学習を用いたTwitter上のツイートに対するファクトチェック支援手法の提案
◎竹井 拓実・清 雄一・田原 康之・大須賀 昭彦(電気通信大学)
×
E-049深層学習を用いたTwitter上のツイートに対するファクトチェック支援手法の提案
◎竹井 拓実・清 雄一・田原 康之・大須賀 昭彦(電気通信大学)
昨今,SNSが発展し大量の情報がやり取りされるようになったと同時に,誤情報拡散を防ぐためのファクトチェックの必要性も増加してきている.しかしながらこれらの作業は人手によるチェック作業が主となっており,情報拡散のスピードに追い付いておらず,中々進んでいないという現状がある.本論文ではツイートに対するリプライの伝播構造に着目した深層学習ベースのファクトチェック支援手法を提案し,実験及び評価を通じて支援手法となりうるかどうかを考察,検討した. |