E分野 自然言語・音声・音楽 |
選奨セッション 選奨1 |
9月3日(水) 9:30-12:00 1c会場
座長 藤田 篤(情報通信研究機構)
須藤 克仁(奈良女子大学) |
CE-001 |
対話ヒアリングとロールプレイを併用した人物模倣LLMエージェント生成
◎福迫 太一・澤崎 夏希・遠藤 聡志(琉球大学)
×
CE-001対話ヒアリングとロールプレイを併用した人物模倣LLMエージェント生成
◎福迫 太一・澤崎 夏希・遠藤 聡志(琉球大学)
特定個人の話し方を模倣する試みとしてシステムプロンプトによるLLMのチューニングがある。以前の研究ではプロンプトの生成方式として、対話ヒアリングから特徴を言語化するヒアリング方式、理想とするロールプレイの分析から特徴を言語化するロール方式を提案した。しかし実験によってヒアリング形式では「表現の一貫性が不十分で表層的」、ロール形式では「セリフの多面性が不十分」といった課題が明らかとなった。本研究では両方のハイブリッドによる質問形式を提案する。ヒアリングによる抽象的な人物像、ロールによる表面的な話し方の特徴収集によって、より多面的かつ一貫性のある人物模倣プロンプト生成手法を構築する。 |
CE-002 |
スキンケアカウンセリングの評価における多様な模擬対話生成のためのLLMクライアントの提案
◎宮良 美桜・遠藤 聡志・澤崎 夏希(琉球大学)
×
CE-002スキンケアカウンセリングの評価における多様な模擬対話生成のためのLLMクライアントの提案
◎宮良 美桜・遠藤 聡志・澤崎 夏希(琉球大学)
LLMを活用したスキンケアカウンセリングシステムでは、様々なクライアントへの適応性を評価するための対話データ収集が困難である。そこで本研究では、LLMにクライアント役をシミュレーションさせる手法を提案する。本手法では、カウンセリングシートに含まれる情報に加え、実際の対話データを分析して得た発話傾向を反映することでLLMクライアントを作成し、LLM同士による模擬対話を生成する。また、模擬対話と実対話の類似度を比較・分析することで、LLMクライアントがどの程度人の代替となり得るかを評価する。これにより、多様な対話データを低コストで得ることができ、システムの効率的な評価が可能となる。 |
CE-003 |
人格的記憶に基づくRAGの構築に向けた生成部の検討
◎加藤 優一・市川 嘉裕・山口 智浩(奈良工業高等専門学校)
×
CE-003人格的記憶に基づくRAGの構築に向けた生成部の検討
◎加藤 優一・市川 嘉裕・山口 智浩(奈良工業高等専門学校)
RAG(Retrieval-Augmented Generation)において,大規模言語モデル(LLM)は外部知識から抽出した断片的情報を一貫性ある文章へと成形する役割を担う.本研究では,この外部知識を人格的記憶に置き換えることで,特定の人格に即した応答生成が可能になるかという問いを立てた.しかし,LLMによる成形過程では一般的な知識や表現が介在し,結果として人格的記憶と矛盾する応答が生成される可能性がある.そこで本研究では,代表的なプロンプト設計手法を適用し,当該問題の抑止効果を実験的に検証した.具体的には,応答に含まれ得る誤りを分類し,各手法が誤り発生率をいかに低減するかを評価した. |
CE-004 |
ユーザ指定スケールに応じた日本近代文学テキストの自動レベル変換: RAGを活用した複数レベル指標への統合アプローチ
○甘利 実乃(東京外国語大学)
×
CE-004ユーザ指定スケールに応じた日本近代文学テキストの自動レベル変換: RAGを活用した複数レベル指標への統合アプローチ
○甘利 実乃(東京外国語大学)
日本近代文学の代表作品約100点を青空文庫より抽出し、日本語学習者向け多読教材として活用するため、生成AIを用いたレベル変換手法を検証した。各種スケール指標に対応するサンプル文章、語彙・文法・文型データをRAGに組み込み、原文を学習者希望の指標レベルへ変換。統制群との量的比較分析の結果、学習者の読解ニーズに即した教材生成の有効性が示唆された。本研究は、日本語教育における多様なレベル設定の統合手法として、自然言語処理技術による動的な「レベルスケーリング」の可能性を示すものである。統計的推論を用いた生成モデルが学習者の多様な言語背景に柔軟に対応し得ることは、今後の研究において大いに注目に値する。 |
選奨セッション 選奨2 |
9月3日(水) 13:10-15:10 2c会場
座長 藤田 篤(情報通信研究機構)
須藤 克仁(奈良女子大学) |
CE-005 |
言語モデルにおける符号化能力とベンチマーク性能との乖離現象
○佐藤 哲(パーソルキャリア)
×
CE-005言語モデルにおける符号化能力とベンチマーク性能との乖離現象
○佐藤 哲(パーソルキャリア)
ニューラルネットワークを基盤とする大規模言語モデル(Large Language Model; LLM)の発展に伴い,LLMの持つ知識や理解能力・推論能力を活用した情報符号化手法が注目されている.特に情報圧縮を伴う符号化について,圧縮性能はLMCR(Language Model-based Compression Rate)で評価され,一般にLMCRは各種ベンチマークにおけるLLMのタスク遂行能力と高い相関を示す.しかし一部のLLMでは,この傾向から逸脱したLMCRが観測されており,符号化能力とタスク性能の関係には未解明の側面が残されている.本研究では,この乖離現象の原因を分析・考察する. |
CE-006 |
LE SSERAFIM ファンのリテンション予測と要因解析:日・韓・英の比較
◎立花 れい菜・深澤 佑介(上智大学)
×
CE-006LE SSERAFIM ファンのリテンション予測と要因解析:日・韓・英の比較
◎立花 れい菜・深澤 佑介(上智大学)
本研究は、韓国の多国籍グループLE SSERAFIMのファンダムにおける国別のリテンションの要因を明らかにすることを目的とした。YouTube上のID付きコメントを言語別(韓国語、日本語、英語)に分析し、LDAによりファンの興味の違いを明らかにした。韓国語では知名度のあるメンバー、英語ではパフォーマンス、日本語では日本人メンバーへの関心が目立った。さらに、BERTを用いて前月のコメントから翌月の投稿有無を予測し、SHAPで特徴語を分析した。全言語で「褒め言葉」や「メンバー名」は継続と関連し、「歌」「映像」などへの不満は離脱傾向にあった。また日本語ではファンの熱量が相対的に低い傾向が示された。 |
CE-007 |
感情分類と攻撃性推定を統合した特徴量によるSNS上の攻撃的投稿検知モデル
◎草野 雅也・佐久間 拓人・加藤 昇平(名古屋工業大学)
×
CE-007感情分類と攻撃性推定を統合した特徴量によるSNS上の攻撃的投稿検知モデル
◎草野 雅也・佐久間 拓人・加藤 昇平(名古屋工業大学)
近年,SNSにおいて不特定多数への攻撃的投稿の増加に伴い,それらを自動で検知する研究が進められている.しかし,皮肉表現や会話の前後に依存する文脈表現に対する検知精度が低くなる課題がある.そこで本研究では,感情分類の結果を活用することで検知精度が向上する仮説を立て,感情分類モデルと先行研究の攻撃性検知モデルをアンサンブル学習した新たな攻撃性検知モデルを構築した.性能評価は正答率とF1スコアを比較し,先行研究のモデルと同等の精度を保ちつつ誤検出を約7%減少した.また攻撃性検知と感情分類の混同行列を分析した結果,「怒り」の感情が攻撃的,「中立」の感情が非攻撃的である傾向が明らかになった. |
CE-008 |
未知環境音からの日本語擬音語自動生成手法の提案
◎藤吉 宙・柊 和佑・坂本 菫・柳谷 啓子(中部大学)
×
CE-008未知環境音からの日本語擬音語自動生成手法の提案
◎藤吉 宙・柊 和佑・坂本 菫・柳谷 啓子(中部大学)
本研究では、擬音語と対応音声を教師データとする深層生成モデルを構築し、人声を除去した未知環境音から新規擬音語を自動生成する手法を提案する。まず、WebRTC VADで音声と環境音を自動分離し、FFT帯域マスキングで残留雑音を低減する前処理パイプラインを構築した。TensorFlow HubからYAMNetをロードし、5秒区間で抽出した3072次元音響埋め込み(平均・分散・最大値結合)を、効果音用にファインチューニングした日本語モーラ分類器へ入力し、効果音を短モーラ列として上位5候補を提示する。屋内外100クリップで前処理前後を比較した結果、評価基準は今後検討予定ながら現状では平均トークン精度約0.88を達成。今後はリスナーによる主観評価(MOS)実験を実施し、数値評価と併せて自然度検証を行う。 |
文書分類 |
9月3日(水) 13:10-15:10 2h会場
座長 田村 晃裕(同志社大学) |
E-001 |
大規模言語モデル生成文の識別と特徴量の分析
◎若狭 春輝・神野 健哉(東京都市大学)
×
E-001大規模言語モデル生成文の識別と特徴量の分析
◎若狭 春輝・神野 健哉(東京都市大学)
本研究では,人間が執筆した文章と,大規模言語モデル(LLM)によって機械生成された文章を,BERTに代表されるエンコーダーモデルを用いて分類する際,文章の識別に用いられる特徴量がLLM特有の文章生成確率に依拠しているのか,あるいはその他の文章的特徴に基づいているのかを検討した.生成方法を制御した文章に対して分類を行い,エンコーダーモデルから抽出される特徴量に与える影響を分析した.その結果,分類は生成確率の違いによらず高精度に行えることを確認し,特徴量が潜在的な文章特徴を捉えていることが示唆された.本研究は,機械生成された文章の識別におけるLLM特徴空間に内在する情報の理解に貢献する. |
E-002 |
BERTモデルを用いてフェイクニュース検出精度の改善について
◎呉 雪瑩・仲 思源・藤野 巖(東海大学)
×
E-002BERTモデルを用いてフェイクニュース検出精度の改善について
◎呉 雪瑩・仲 思源・藤野 巖(東海大学)
近年、ソーシャルメディアの普及により、情報の取得が容易になる一方、フェイクニュースの拡散も加速し、社会的影響が深刻化している。そのため、フェイクニュースを自動検出できる技術の早期確立が求められている。本研究では、既存研究で公開されているフェイクニュース関連データセットを用い、BERTモデルによるフェイクニュースの自動分類モデルを構築した。モデル性能向上のため、ハイパーパラメータ調整や訓練回数の最適化を繰り返し実施し、精度およびF1スコアの向上を確認した。その結果、従来研究を上回る分類性能を達成し、BERTを活用した手法がフェイクニュースを高精度で検出できることを示した。 |
E-003 |
レビューテキストからの観点別評価点の推定
◎西垣 佑哉・吉田 稔・松本 和幸(徳島大学)
×
E-003レビューテキストからの観点別評価点の推定
◎西垣 佑哉・吉田 稔・松本 和幸(徳島大学)
本研究では,ユーザーレビューのテキストから観点別評価点(1〜5)を推定する手法を提案する.データにはRakutenレビュー・データセットを用い,自然言語処理モデルとしてBERTを適用した.レビュー文から文脈情報を抽出し,分類モデルによりスコア予測を行う.従来手法と比較して良好な性能を示し,レビュー分析や推薦システムへの応用可能性が示された. |
E-004 |
SNS上のテキストデータを用いたうつ病兆候の検出に関する研究
◎漆原 匠希・康 鑫・松本 和幸・吉田 稔(徳島大学)
×
E-004SNS上のテキストデータを用いたうつ病兆候の検出に関する研究
◎漆原 匠希・康 鑫・松本 和幸・吉田 稔(徳島大学)
本研究では、SNS上に投稿されたテキストデータを対象に、うつ病の初期兆候を検出する手法を提案した。うつ病は早期発見が重要であるが、本人が自覚しにくい場合も多いため、SNS上の言動から兆候を捉えることが有効とされている。そこで本研究では、投稿の時系列的な変化を捉えるためにTimeBERTを用いて特徴量を抽出し、投稿をユーザー単位で系列化した上で、LSTMとAttention機構を組み合わせたモデルによって分類を行った。その結果、従来のBERTベースのモデルよりも高い分類精度を示し、SNSデータを用いたうつ病の早期検出における有効性が示された。 |
E-005 |
連続的なスコアを推論する自動採点モデル構築のための基礎検討
◎春日 優虎・浦野 昌一(明治大学)
×
E-005連続的なスコアを推論する自動採点モデル構築のための基礎検討
◎春日 優虎・浦野 昌一(明治大学)
大学入学共通テストへ記述式問題を導入することが検討されるなど,思考力および表現力を測る記述式問題の導入がトレンドとなっている一方で,記述式問題の導入に際しては採点コストの削減や情報漏洩をいかにして防ぐかが喫緊の課題となっている.先行研究では,答案を「正解」,「不正解」,そして「部分正解」の3ラベルに分類するモデルを構築したが,部分正解に分類される答案の幅が広く,従来までの手動採点と比較して採点コストを大きく削減することは叶わなかった.そこで本稿では,分類モデルへの入力として調整された分散表現の多次元空間における位置関係を利用し,連続的なスコアを推論する自動採点モデルを構築することを目指した. |
E-006 |
モチベーションに基づいた目標達成を促すメッセージの特定
◎和田 仁聖・島川 博光・原田 史子(立命館大学)
×
E-006モチベーションに基づいた目標達成を促すメッセージの特定
◎和田 仁聖・島川 博光・原田 史子(立命館大学)
学習者が目標に向けて持続的に努力することは難易度が高いため,外部からの支援が必要になる.学習者が努力を続けるためにはモチベーションを高く保つ必要があり,指導者は適切に導く必要がある.本研究は,ユーザの持つモチベーションに合ったメッセージで介入すれば,ユーザが目標を達成することを促進できると仮定を立てる.実験は,被験者が記録した振り返りテキストに対し自然言語処理技術を用いてモチベーションを推定し,メッセージで介入による効果を調査する.実験の結果,学習者のモチベーションに基づいた適切なメッセージの特定することができた。本研究は,初学者の学習支援や,企業での人材育成に応用できると考えられる. |
音声言語情報処理 |
9月3日(水) 13:10-15:10 2j会場
座長 小澤 賢司(山梨大学) |
E-007 |
講義動画のマルチモーダル検索のためのスライド画像の活用の検討
○南條 浩輝・大窄 凜・小笠原 功二(滋賀大学)
×
E-007講義動画のマルチモーダル検索のためのスライド画像の活用の検討
○南條 浩輝・大窄 凜・小笠原 功二(滋賀大学)
われわれは講義動画アーカイブの検索(音声ドキュメント検索)を行っている。 従来は主として動画中の音声情報のみを頼りに動画検索が行われていたが、 動画中の他の情報、具体的には動画の映像・画像情報も用いたマルチモーダル検索の実現を目指している。 今回、講義スライド中の文字や画像の利用法について検討したのでそれについて報告する。 |
E-008 |
大規模言語モデルによるSOAP項目自動生成に対応した電子カルテ音声入力インタフェース
◎山中 稜斗・斉藤 翼・若林 佑幸・北岡 教英(豊橋技術科学大学)
×
E-008大規模言語モデルによるSOAP項目自動生成に対応した電子カルテ音声入力インタフェース
◎山中 稜斗・斉藤 翼・若林 佑幸・北岡 教英(豊橋技術科学大学)
近年,音声入力と大規模言語モデルを活用した電子カルテ入力支援システムの開発が進んでいる.そこで本研究では,医療従事者が電子カルテ入力業務を効率的に行うことを目的とした電子カルテ音声入力インタフェースを提案する.本インタフェースは,電子カルテのスタンダードであるSOAPを対話音声の認識結果から自動で生成することが可能である.また,出力結果の効率的な修正編集機能や自動保存機能,QRによる電子カルテへの転送手法を実現することで実用性の高いインタフェースを構築した.今後の展望として入力時間など実用性を検証する実験を行い,本インタフェースの有用性を検証する必要がある. |
E-009 |
離職率を低減させるための職場でのコミュニケーション改善ツール
◎上野 晃英・原田 史子・島川 博光(立命館大学)
×
E-009離職率を低減させるための職場でのコミュニケーション改善ツール
◎上野 晃英・原田 史子・島川 博光(立命館大学)
近年の日本において、若年層の3年以内の離職率は30%以上と高い値で推移している。職場において、コミュニケーションが十全に行われていないと、従業員の職務に対する満足度は低下し、離職の一因となる。コミュニケーションの改善には、傾聴が有効な手法である。 本研究では、LLMと傾聴時の音声特徴を利用した傾聴のスキル向上を図るコミュニケーション改善手法を提案する。 傾聴のスキル向上には、訓練が欠かせないが、その機会をえることは難しい。そのため、LLMを相手に傾聴の訓練を実施することを考える。 本研究の手法で訓練し、傾聴力を養うことは、従業員の職場に対する満足度の向上につながり、離職率の低減につながる。 |
E-010 |
拍・アクセント辞書を明示条件としたHiFi-GAN日本語音声合成
◎髙林 竜久斗・李 嘉誠・能登 正人(神奈川大学)
×
E-010拍・アクセント辞書を明示条件としたHiFi-GAN日本語音声合成
◎髙林 竜久斗・李 嘉誠・能登 正人(神奈川大学)
高速波形生成が可能なHiFi-GANは,日本語音声合成においても高い性能が期待されるが,従来は拍やアクセント情報を暗黙的に学習させる手法が主流で,日本語特有の音韻構造を明示的に扱う方法は十分に検討されていない.本研究では,辞書から抽出した拍・アクセント系列をフレーム単位で16次元ベクトルに変換し,HiFi-GAN Generatorに並列入力するモジュールを追加し,学習の安定化と精度向上を図る.単一話者コーパスJSUTを用い,メルスペクトログラム損失とSTOIを評価指標として500エポック訓練した結果,メル誤差が約10%削減される可能性が示された.本稿では,提案手法の構成,前処理,評価プロトコルを示し,多話者・感情音声への拡張に向けた課題について考察する. |
E-011 |
音声感情認識のための複数の手法を用いた多様なデータ拡張方法の検討
◎生形 優也・田村 仁・大久保 友幸(日本工業大学)
×
E-011音声感情認識のための複数の手法を用いた多様なデータ拡張方法の検討
◎生形 優也・田村 仁・大久保 友幸(日本工業大学)
感情を理解することは円滑なコミュニケーションに重要でありAIが人との自然な対話の実現に必要不可欠である.近年,音声感情認識の研究は盛んに行われているが感情表現が多様かつ複雑であり推定が困難であるため課題の1つとして学習データの不足が挙げられる.そこで本研究では学習データに多様性をつけるため複数の手法を用いたデータ拡張方法の検討を行った.使用するデータ拡張方法は時間伸縮,時間マスキング,ピッチシフト,感情音声結合,混合感情音声などを使用し手法を組み合わせることで感情判別の精度の性能向上を検討する. |
E-012 |
HuBERTを用いた音声感情認識におけるFine-tuningの効果
◎久下 忍(千葉大学)・柘植 覚(大同大学)・西田 昌史(静岡大学)・堀内 靖雄・黒岩 眞吾(千葉大学)
×
E-012HuBERTを用いた音声感情認識におけるFine-tuningの効果
◎久下 忍(千葉大学)・柘植 覚(大同大学)・西田 昌史(静岡大学)・堀内 靖雄・黒岩 眞吾(千葉大学)
近年,事前に大量の音声データから音響特徴抽出器として学習した自己教師あり学習モデルが,音声感情認識に用いられ,高い性能を示している.しかし,日本語感情音声コーパスを用いてこれらのモデルをFine-tuningした研究は少ない.本研究では,自己教師あり学習モデルの1つであるHuBERTを用い,その後段に2つの線形層と平均プーリングからなる分類器を配置した.実験では,95MパラメータのBASEモデルをFine-tuningすることで,317MパラメータのLARGEモデルを特徴抽出器として用いた先行研究と同等の認識精度を得た.また,Fine-tuningを施す層を変更し,各々の認識精度を比較した. |
LLMの分析と評価 |
9月3日(水) 15:30-17:30 3h会場
座長 須藤 克仁(奈良女子大学) |
E-013 |
大規模言語モデルは年齢を超えて文体を生成できるか
◎井下 敬翔(関西大学)
×
E-013大規模言語モデルは年齢を超えて文体を生成できるか
◎井下 敬翔(関西大学)
本研究は、大規模言語モデル(LLM)が、年齢に応じた文体・語彙・思考様式をどの程度再現・変換できるかを検証することを目的とする。とりわけ、小学校低学年から大学生、さらには高齢層に至るまでの発達的多様性に基づく「語りのスタイル」を、言語生成の中で適切に再現できるかを問い直す。あわせて、各発達段階において生成されたテキストの語彙的特徴・構文的複雑性・表現の姿勢に注目し、年齢による文体的変容の構造を体系的に分析する。 |
E-014 |
知識グラフとGPTを用いた対話的大学情報システムにおける不正確な入力への対処法の検討
◎桑迫 宥登・加藤 恒夫・田村 晃裕(同志社大学)
×
E-014知識グラフとGPTを用いた対話的大学情報システムにおける不正確な入力への対処法の検討
◎桑迫 宥登・加藤 恒夫・田村 晃裕(同志社大学)
知識グラフとGPTを組み合わせたRAGを用いて大学情報システムを試作し、LLMの回答精度を検証する。また、不正確な情報を含む入力に対しても高精度を維持する段階的検索法を提案し、有効性を評価する。最終的にベンチマークの評価により提案手法の有効性を確認した。 |
E-015 |
DB構造化によるRAGを用いたトークン数制約下での小型LLMシステムの性能改善
◎仁科 颯・平田 俊明(東京情報デザイン専門職大学)
×
E-015DB構造化によるRAGを用いたトークン数制約下での小型LLMシステムの性能改善
◎仁科 颯・平田 俊明(東京情報デザイン専門職大学)
本論文では,トークン数に制約のある小型LLMの応答性能向上に向けて,情報源をYAMLファイル形式で階層的に構造化し活用するRAG(Retrieval-Augmented Generation)手法を提案する. 提案手法では,YAMLで定義された構造を反映した情報を生成し,ベクトルデータベースに格納,検索時に活用する. 実験の結果,従来の固定長チャンク分割によるRAG手法と比較し,提案手法は応答性能を向上させると同時に小型LLMへの入力トークン数を削減できることを確認した.また, 実装の簡便性からコスト効率性もよいRAG手法である. |
E-016 |
ノイズに着目しているAttention Headの同定とスケーリングによる大規模言語モデル出力の正確性と多様性のトレードオフ制御
◎下村 晃生・花沢 明俊(九州工業大学)
×
E-016ノイズに着目しているAttention Headの同定とスケーリングによる大規模言語モデル出力の正確性と多様性のトレードオフ制御
◎下村 晃生・花沢 明俊(九州工業大学)
本研究では,大規模言語モデルの中間層に,文脈中の不要な情報(ノイズ)に過剰にAttentionを向ける Attention Head が存在する事を同定し,AN-Score という指標でその注目度を可視化した.また,同定したHeadの重みを拡大すると生成文の意味的多様性が向上し,逆に抑制すると数学的推論タスクの正答率が改善することを実験で実証した.これにより,AN-Scoreに基づくHeadの調整によってモデル出力の正確性と多様性のトレードオフに関する特性を制御可能であることを示し,大規模言語モデルの解釈可能性の向上に貢献した. |
音信号処理 |
9月3日(水) 15:30-17:30 3j会場
座長 北岡 教英(豊橋技術科学大学) |
E-017 |
ヘッドホンのための透過方向を調整可能なニューラルネットワークANC
◎吉橋 宏哉(東京理科大学)・村松 駿(東京大学)・吉田 孝博(東京理科大学)
×
E-017ヘッドホンのための透過方向を調整可能なニューラルネットワークANC
◎吉橋 宏哉(東京理科大学)・村松 駿(東京大学)・吉田 孝博(東京理科大学)
ANC(Active Noise Cancellation)ヘッドホンは外部の⾳をすべて騒⾳と⾒なすため、⼈の声や警告⾳などの聞きたい⾳も騒⾳として低減され、聞こえづらくなるという問題がある。この対策として、マイクロホンアレイによるヌルビームフォーマを⽤いて外部の聞きたい⾳と消⾳したいその他のノイズを分離し、ノイズのみを低減する⼿法が検討されているが、ヘッドホンに搭載するためには、より⼩型のマイクロホンアレイを使⽤する必要がある。本研究では最⼩分散無歪ビームフォーマを⽤いた⼿法を提案し、その結果、ニューラルネットワークANCを使⽤したシミュレーションを通して、マイク2個、アレイ間隔2cmのマイクロホンアレイで従来⼿法と同等の効果が得られた。 |
E-018 |
音声フレームの重要度推定による音声発生源判別の精度改善
◎高橋 陽南(東京理科大学)・村松 駿(東京大学)・吉田 孝博(東京理科大学)
×
E-018音声フレームの重要度推定による音声発生源判別の精度改善
◎高橋 陽南(東京理科大学)・村松 駿(東京大学)・吉田 孝博(東京理科大学)
近い将来、⾳声対話型ユーザインタフェースを搭載した機器が複数存在する環境で、機器が適切に動作するためには、⼈が直接発した⾳声と機器から再⽣された⾳声を判別する技術が必要となる。そこで、当研究室の先⾏研究において⾳声発⽣源判別法が開発されたが、雑⾳環境下での精度に課題が残っている。そこで本研究では、⾳声の各フレームの発声源判別における重要度を推定し、その重要度に基づいて⾳声発声源判別のスコア計算を行う⼿法を提案した。その結果、SNR=0dBにおいて2.8ポイントの精度向上を達成し、本⼿法が有効であることを確認した。 |
E-019 |
ヘッドホン用アクティブノイズキャンセリングのための低音域重点学習法の提案
◎松山 遼(東京理科大学)・村松 駿(東京大学)・Bugl Benedikt・Schneider Viola・Sehr Armin(Ostbayerische Technische Hochschule Regensburg)・吉田 孝博(東京理科大学)
×
E-019ヘッドホン用アクティブノイズキャンセリングのための低音域重点学習法の提案
◎松山 遼(東京理科大学)・村松 駿(東京大学)・Bugl Benedikt・Schneider Viola・Sehr Armin(Ostbayerische Technische Hochschule Regensburg)・吉田 孝博(東京理科大学)
本研究では、ニューラルネットワークを⽤いたアクティブノイズコントロールの雑⾳低減性能の改善を⽬的とし、⾼域成分の過剰予測による誤差増⼤の課題に対し、低⾳域重点学習⼿法を提案した。この⼿法は、ニューラルネットワークの学習およびアンチノイズ⽣成時に低域通過フィルタを⽤いた前処理を追加し、⾼域成分の予測を抑制する⼿法である。本⼿法の評価として、ヘッドホン⽤アクティブノイズキャンセリング(ANC)における実環境を想定し、実測で得られた⼀次経路の影響を含む⾳声を⽤いてANCを⾏った結果、従来⼿法に対して平均3.12dB、最⼤6.03dBのノイズ低減性能の向上が得られた。 |
E-020 |
マイクロホンの周波数特性の校正がISSS法による雑音抑制に及ぼす効果
原口 侑梧・鳥谷 輝樹・○小澤 賢司(山梨大学)
×
E-020マイクロホンの周波数特性の校正がISSS法による雑音抑制に及ぼす効果
原口 侑梧・鳥谷 輝樹・○小澤 賢司(山梨大学)
著者らは,小型マイクロホンアレイを用いて高性能な雑音抑制を実現するために,瞬時スペクトル推定に基づくスペクトル減算(ISSS: Instantaneous-spectrum-estimation-based spectral subtraction)法を提案し,計算機上のシミュレーション実験により性能評価を行ってきた。ここでは実機での性能を評価するために,4チャネルマイクロホンアレイを用いた評価実験を行った。その結果,雑音抑制の有効性が確認されたが,低周波域の歪により信号対歪み比(SDR)は8 dBに留まった。これを改善するために,各マイクロホンの周波数特性の個体差を補正した結果,SDRは12 dBに向上した。さらに,異なる雑音方向における評価を行ったところ,特に入射角0°付近で顕著なSDRの改善が確認された。 |
E-021 |
音楽信号による打診における測定方法の検討
◎清水 唯衣・鳥谷 輝樹・小澤 賢司(山梨大学)
×
E-021音楽信号による打診における測定方法の検討
◎清水 唯衣・鳥谷 輝樹・小澤 賢司(山梨大学)
打診は「物理的な打撃」により,対象のインパルス応答を計測する手法である.本研究では,家庭において楽しく実施可能な打診を目指し,「15秒程度の音楽信号」を用いたインパルス応答の計測手法を提案する.従来の打診により与えられる物理的な単位インパルスに対し,本研究ではそれを時間的に引き延ばしたTSP信号から得られる応答を打診結果と見なした.TSP信号および音楽信号による測定結果を比較することで,提案手法により従来の打診と同等の情報を取得可能かを検証した.さらに,測定データの周波数特性を分析することで,加振位置および録音位置の違いが測定結果に及ぼす影響についても示す. |
支援技術 |
9月4日(木) 9:30-12:00 4e会場
座長 宮﨑 太郎(NHK放送技術研究所) |
E-022 |
RAGによる生活保護質問応答システムにおけるテキスト分割手法の評価
◎大畠 瑞輝・石井 雅樹・伊東 嗣功・堂坂 浩二(秋田県立大学)
×
E-022RAGによる生活保護質問応答システムにおけるテキスト分割手法の評価
◎大畠 瑞輝・石井 雅樹・伊東 嗣功・堂坂 浩二(秋田県立大学)
本研究では,生活保護ケースワーカーの負担軽減を目的とし,生活保護手帳を外部文書としたRAGによる質問応答システムを開発した.従来手法のデータ更新コストや文脈応答の柔軟性に関する課題に対して,本研究では,RAGの採用により,データ更新の低コスト化と柔軟な回答を図った.さらに,文書の複雑な構造に対応するため、文書構造を考慮したテキスト分割方式を提案し,RAGASによって固定チャンク分割と比較評価を行った.評価実験では,提案方式が検索性能で優位性を示し,RAGにおける文書構造に沿ったテキスト分割の重要性が示唆された. |
E-023 |
大規模言語モデルを用いた役職判定技術の複数モデル評価
◎小川 秀貴・髙阪 崇久・小林 史弥(東日本電信電話)
×
E-023大規模言語モデルを用いた役職判定技術の複数モデル評価
◎小川 秀貴・髙阪 崇久・小林 史弥(東日本電信電話)
効率的なマーケティングにおいては、顧客属性を正しく把握すること、特に顧客の役職を把握することが重要である。しかし、顧客の役職情報は企業によってかなりばらつきがあり、その情報をマーケティングに有用な形に落とし込むのは容易ではない。そこで本稿では、近年急速に利活用が進んでいる大規模言語モデル(LLM)を利用し、各社ごとに異なる表記の役職情報からマーケティングに活用できる形での役職判定技術を提案する。複数のLLMモデルによる評価の結果、gpt-4o-miniが最も高い正答率85%を達成した。今後は、さらなる精度向上やLLMが判断に迷うケースへの対処法についても考察する。 |
E-024 |
大規模言語モデルとルールベース処理を用いた4択問題集作成支援ツール
○小島 一秀(大阪大学)・安田 光輝(パナソニックオートモーティブシステムズ)
×
E-024大規模言語モデルとルールベース処理を用いた4択問題集作成支援ツール
○小島 一秀(大阪大学)・安田 光輝(パナソニックオートモーティブシステムズ)
近年,eラーニングは普及したが,そこで使用される問題集は,多くが手作業で作成されており,効率化の余地が残されている.このような問題を解決するため,これまでの本研究では,指導者が出題する内容を用語,その上位用語,用語説明文からなる表形式データに入力するだけで,4 択問題の問題集を自動生成するルールベース処理による作問支援ツールの開発を行ってきた.これを改善するために,近年,発展の著しい大規模言語モデルを組み合わせた作問支援ツールを提案する.開発された提案ツールを用いて,情報分野の問題集を作る評価実験を行い,ルールベース処理のみによる作問支援ツールより効率的に問題集を作成できることを示した. |
E-025 |
LLMに基づくディベートジャッジの設計 : 審判の決定プロセスを考慮して
◎中江 康公・蜂巣 吉成・吉田 敦・桑原 寛明(南山大学)・野呂 昌満(元南山大学)
×
E-025LLMに基づくディベートジャッジの設計 : 審判の決定プロセスを考慮して
◎中江 康公・蜂巣 吉成・吉田 敦・桑原 寛明(南山大学)・野呂 昌満(元南山大学)
本研究は,大規模言語モデル(LLM)に基づき,ディベート審判の評価手法に近しい決定プロセスを用いるディベートジャッジ AI の設計を目的とする.先行研究では,システムアーキテクチャを用いてディベートスピーチを繰り返し観点別・定量的に評価することでLLMの勝敗判定精度を向上させた.本研究は,ディベートに対し定性的な評価から判定を下すシステムアーキテクチャを提案する.ジャッジマニュアルなど審判が用いる評価基準をもとに先行研究のアーキテクチャとLLM用のシステムプロンプトを再構築した..その結果,ディベートの実試合を使用した検証実験で先行モデルを上回る判定精度が得られたが,審判の評価との合意度に改善の余地がある. |
E-026 |
矯正歯科医と大規模言語モデルの協働による効率的な自動診断に向けて
◎杉原 壮一郎・梶原 智之(愛媛大学)・池田 直樹・谷川 千尋(大阪大学)・二宮 崇(愛媛大学)
×
E-026矯正歯科医と大規模言語モデルの協働による効率的な自動診断に向けて
◎杉原 壮一郎・梶原 智之(愛媛大学)・池田 直樹・谷川 千尋(大阪大学)・二宮 崇(愛媛大学)
矯正歯科治療において,歯科医師による適切な診断を実現するためには,豊富な知識と長年の経験が必要である.本研究では,経験の浅い歯科医師の誤診や見落としを軽減することを目的とし,大規模言語モデルを応用した矯正歯科治療の自動診断の実現を目指す.具体的には,矯正歯科治療の所見文書をもとに,大規模言語モデルを用いて患者の病状を自動的に診断するタスクに取り組む.実験の結果,所見文書内の専門用語の平易化などの前処理や診断結果に対する修正指示などの後処理を施すことで,診断性能が向上することを確認した. |
E-027 |
iMAP VISION:画像解析AIが実現するカテーテルアブレーション手技支援の新たな可能性
○宗像 大輔・杉田 翔哉・宮崎 正浩・調 慧一・古谷 咲乃・森山 翔太郎・上山 剛(山口県立総合医療センター)・内野 英治(山口大学)
×
E-027iMAP VISION:画像解析AIが実現するカテーテルアブレーション手技支援の新たな可能性
○宗像 大輔・杉田 翔哉・宮崎 正浩・調 慧一・古谷 咲乃・森山 翔太郎・上山 剛(山口県立総合医療センター)・内野 英治(山口大学)
背景と目的 心臓カテーテルアブレーション手技におけるマッピングシステムのエラーは、手技の遅延や中断を招き、臨床的・経済的損失をもたらす。本研究ではOCR(Optical Character Recognition)とRAG(Retrieval-Augmented Generation)を用いたリアルタイムエラー検知システムを開発し、その有用性を検証した。 方法 マッピングシステムの映像出力をOCRで解析し、エラーメッセージをリアルタイムで検知・分析するシステムを構築した。機能として①エラー重要度分類、②解決策提示、③施設固有ナレッジベース構築を実装。システム導入前後各20例で比較検討を行った。 結果 エラー検出から解決までの平均時間が8.4分から2.1分へと有意に短縮(p<0.001)。特に重大エラーの解決が顕著に迅速化し、初学者でも熟練者同等の対応が可能となった。 結論 本システムはマッピング手技の効率化と安定化に寄与し、施設固有ナレッジベースの蓄積が可能。今後はエラー検知だけでなく、熟練度に関わらずリアルタイムアシスタントシステムへの発展を目指す。 |
E-028 |
強化学習環境における要求文書作成支援の評価
○森 渉・原田 史子・島川 博光(立命館大学)
×
E-028強化学習環境における要求文書作成支援の評価
○森 渉・原田 史子・島川 博光(立命館大学)
本研究は、強化学習の環境作成を容易にするため、良質な状態遷移図の作成を目的とした要件文書作成の支援手法を提案する。強化学習では制御対象のふるまいをシミュレートする環境の作成が必要であるが,経験の浅いユーザには網羅的な記述が困難であり,各状態における事象と遷移を自然言語で記述した要件文書の活用が考えられる.本手法では、状態遷移図作成のためのテンプレートと注意事項を定義し、模範文書や提示位置の異なる注意事項を用いて、ユーザに要件文書を修正させる支援を行う。支援の効果を編集距離で評価する.実験の結果,模範文書や注意事項の提示が要件文書作成の支援に有効であることが確認された。 |
感情・レビュー |
9月4日(木) 9:30-12:00 4f会場
座長 大野 誠寛(東京電機大学) |
E-029 |
レビュアのパーソナリティを考慮したレビュー分類手法
◎川上 大凱・鈴木 優(岐阜大学)
×
E-029レビュアのパーソナリティを考慮したレビュー分類手法
◎川上 大凱・鈴木 優(岐阜大学)
本研究はレビュー文からユーザごとのパーソナリティを表現し、レビューを対象としたタスクの精度を向上させることを目指す。 レビューにはサービスを利用した際にユーザが感じたことや考えたことが書かれている。そのため同じサービスであっても、ユーザの性格や考え方によってサービスに対する評価やレビューの書き方が異なる。そこで我々は二つの仮説を立てた。一つ目はレビューがユーザごとの違いを表すパーソナリティを保持しているということである。二つ目はパーソナリティを利用することでレビューを対象としたタスクの精度を向上させることができるということである。 本稿では、一つ目の仮説に対して実験を行い、その結果を示す。 |
E-030 |
BERTとLDAによる口コミデータに基づく評価指標の分析
◎林 尚也・浦野 昌一(明治大学)
×
E-030BERTとLDAによる口コミデータに基づく評価指標の分析
◎林 尚也・浦野 昌一(明治大学)
近年. 旅行者が口コミをもとに旅行計画を立てる傾向が強まっており, 口コミの重要性が増している. 本研究では, 年代ごとの評価指標の違いに着目し, じゃらん掲載の宿泊施設口コミデータを対象に, BERTとLDAを用いたトピックモデリングを実施した. 従来のLDAと比較して, 文脈情報を取り入れることで意味的一貫性の高いトピック抽出が可能となり, coherenceスコアにおいても一定の改善が確認された. 分析の結果, 若年層は「設備の充実」や「コストパフォーマンス」を重視する一方, 中高年層は「利便性」や「サービス」に関心を寄せている傾向が明らかとなった. 本研究は, 年代別の関心に応じた観光サービスの設計や情報提供に資する知見を提供する. |
E-031 |
生成AIを活用した顧客期待度と満足感の向上のためのビジネスモデルの提案
◎Lim ChanWoo・島川 博光(立命館大学)
×
E-031生成AIを活用した顧客期待度と満足感の向上のためのビジネスモデルの提案
◎Lim ChanWoo・島川 博光(立命館大学)
本研究では, 外食産業の人手不足問題を解決するために生成AIを利用したビジネスモ デルを提案する. コロナ渦以降, 外食産業の倒産率が高くなっている. その原因のひとつは店舗が集客に失敗していることである. 本研究では, Attention機構を利用し顧客が注目する点を特定する. レシピの説明のどこにSelf-Attentionがかかっているかを調べる. 実験の結果, 同一種類のレビューごとにAttentionが高い単語が異なっていることが分かった. これはヒトが注目する部分をAttention機構が特定できることを意味する. Self-Attention 機構が特定した注目点を訴求するメッセージを自動生成すれば,顧客の期待値を増幅させ,その期待を裏切らないサービスを,低コストで提供できる. |
E-032 |
Yahoo!知恵袋テキストデータの感情分析
◎森藤 名都・吉田 稔・松本 和幸(徳島大学)
×
E-032Yahoo!知恵袋テキストデータの感情分析
◎森藤 名都・吉田 稔・松本 和幸(徳島大学)
本研究では、Q&Aサイト「Yahoo!知恵袋」に投稿された質問文を対象に感情分析を行い、カテゴリごとの感情傾向およびその変動要因を明らかにした。東北大学が公開する日本語BERTモデルをベースに、chABSAデータセットでファインチューニングを実施し、高精度な感情分類器を構築した。分析では、政治・経済・スポーツの3カテゴリに注目し、各月の感情割合の変化を標準偏差により検出、頻出語をもとに要因を推定した。その結果、カテゴリごとの感情変化の特徴や社会的事象との関連性を一部明らかにすることができた。 |
E-033 |
日本語における大規模言語モデルを用いた共感応答生成での常識知識グラフ活用の検討
◎久保 晴生・田村 晃裕・加藤 恒夫(同志社大学)
×
E-033日本語における大規模言語モデルを用いた共感応答生成での常識知識グラフ活用の検討
◎久保 晴生・田村 晃裕・加藤 恒夫(同志社大学)
ユーザの感情や状況に寄り添った応答を生成する共感応答生成は,対話システムにおいて重要な技術の一つであり,近年,大規模言語モデル(LLM)を用いた共感応答生成の研究が盛んに行われている.その中で,英語における共感応答生成では,常識知識グラフを活用することで,ユーザの感情やその原因の理解が促進され,生成される応答の質が向上することが示されている.しかし,日本語における共感応答生成では,常識知識グラフを活用する試みは行われていない.そこで本研究では,日本語において,常識知識グラフを活用したLLMによる共感応答生成モデルを構築し,日本語の共感応答生成における常識知識グラフの有用性を検討した結果を報告する. |
E-034 |
日本語SNSのためのテキスト正規化および感情分析のデータセット
◎近藤 里咲・寺面 杏優・堀口 航輝・梶川 怜恩・鈴木 陽也・宮内 裕人・山内 洋輝・秋山 和輝(愛媛大学)・梶原 智之(愛媛大学/大阪大学)・二宮 崇(愛媛大学)・Chenhui Chu(京都大学)・武村 紀子(九州工業大学)・早志 英朗・中島 悠太・長原 一(大阪大学)
×
E-034日本語SNSのためのテキスト正規化および感情分析のデータセット
◎近藤 里咲・寺面 杏優・堀口 航輝・梶川 怜恩・鈴木 陽也・宮内 裕人・山内 洋輝・秋山 和輝(愛媛大学)・梶原 智之(愛媛大学/大阪大学)・二宮 崇(愛媛大学)・Chenhui Chu(京都大学)・武村 紀子(九州工業大学)・早志 英朗・中島 悠太・長原 一(大阪大学)
本研究では,35,000件のSNS投稿テキストに対して,書き手と読み手の2つの観点からPlutchikの8感情における4段階の感情強度と5段階の感情極性を付与した日本語感情分析データセットについて紹介する.これまで書き手と読み手,感情強度と感情極性のすべてを包括的に扱った感情分析の研究は存在していない.本研究によって,読み手は書き手の感情を過小評価する傾向にあり,読み手の感情よりも書き手の感情を推定する方が難しいことが明らかになった.さらに,SNS投稿テキストに含まれるノイズ表現を人手で正規化した結果,テキスト正規化により感情分析の性能が向上した. |
音楽(音源分離・感情・一般) |
9月4日(木) 9:30-12:00 4g会場
座長 酒向 慎司(名古屋工業大学) |
E-035 |
エレクトリックギターパートの音源分離のためのBLSTMによる音源分離手法
◎山西 陽明(東京理科大学)・村松 駿(東京大学)・吉田 孝博(東京理科大学)
×
E-035エレクトリックギターパートの音源分離のためのBLSTMによる音源分離手法
◎山西 陽明(東京理科大学)・村松 駿(東京大学)・吉田 孝博(東京理科大学)
音源分離技術は音楽制作の場面などで重要性が増している。ボーカル、ドラム、ベースといった主要な楽器パートを分離する研究は多くなされてきたが、同じ種類の楽器で複数のパートが構成されている音源に対応できる分離手法については、検討が不十分であった。そこで本研究では、音色の異なる2つのエレクトリックギターパートの音源分離を行うため、3層のBLSTMを用いた音源分離手法を提案した。その結果、2つのギターパートをそれぞれSDR=-0.21dBと2.85dBにて分離でき、従来手法よりもギターの種類にかかわらず安定した分離性能が得られた。 |
E-036 |
DNNを用いた音源のギター分離・評価
◎萬谷 亮太・土居 茂雄・中村 嘉彦・山本 椋太(苫小牧工業高等専門学校)
×
E-036DNNを用いた音源のギター分離・評価
◎萬谷 亮太・土居 茂雄・中村 嘉彦・山本 椋太(苫小牧工業高等専門学校)
近年、音源分離技術は機械学習の発展により著しく進化しており、特に楽器の分離においても応用が進んでいる。しかし、アコースティックギターとエレキギターの分離に特化した研究は少ない。そこで本研究では、Deezer社が開発した音源分離ツールSpleeterを用い、U-Netベースの深層畳み込みニューラルネットワークにより混合ギター音源の分離を試みた。Spleeterのカスタム学習機能を用いて、2クラス(acoustic, electric)による学習モデルを構築し、独自に収集したギター音源データセットを用いてモデルを訓練した。また出力された音源を確認することで今後のデータセットの収集法を検討した。 |
E-037 |
音楽再生における非線形歪みがリスナーのストレス状態に与える影響
◎中田 賢伸(東京理科大学)・村松 駿(東京大学)・吉田 孝博(東京理科大学)
×
E-037音楽再生における非線形歪みがリスナーのストレス状態に与える影響
◎中田 賢伸(東京理科大学)・村松 駿(東京大学)・吉田 孝博(東京理科大学)
音響機器に含まれる僅かな非線形性による音質変化により、同一音源を異なる機器で再生した場合や、同一機器でもケーブルや電源環境などが異なる状態で再生した場合に、リスナーの楽曲に対する印象が意図せず変化する現象が報告されている。そこで本研究では、音楽再生における非線形歪みがリスナーの楽曲に対する印象変化に与える影響を、ストレス状態の指標となる脈波間隔の変動を用いて評価した。 その結果、非線形歪みがある場合の方がストレス状態になりやすく、この傾向は奇数次高調波歪みのほうが偶数次よりも明確であった。このことから、音楽再生における非線形歪みが、リスナーに影響を及ぼしていることが生体反応から確認できた。 |
E-038 |
楽曲の感情価と覚せい度を予測するための歌詞と音響特徴に基づく統合手法
◎渡邊 薪之助・小俣 昌樹(山梨大学)
×
E-038楽曲の感情価と覚せい度を予測するための歌詞と音響特徴に基づく統合手法
◎渡邊 薪之助・小俣 昌樹(山梨大学)
本論文では,楽曲の感情(ArousalとValence)予測において,従来の歌詞または音響の一方のみに基づく手法ではなく,歌詞と音響それぞれから予測した感情を加重平均することで,予測精度を向上させる手法を提案する.実験では,加重比率を0:10から10:0までの11段階に分け,平均二乗誤差(MSE)により評価した.その結果,Arousalでは歌詞と音響の比率が1:9のときにMSEが0.0369(歌詞単独0.0623,音響単独0.0376),Valenceでは6:4のときに0.0189(歌詞単独0.0233,音響単独0.0271)となり,いずれも単独使用時より優れた予測精度を示した. |
E-039 |
CLAPベクトル特徴量と音響特徴量による感性語の対応分析
◎飯島 日菜・市川 治(滋賀大学)
×
E-039CLAPベクトル特徴量と音響特徴量による感性語の対応分析
◎飯島 日菜・市川 治(滋賀大学)
本研究では、音声とテキストのマルチモーダルモデルであるCLAPを用いて、楽曲と感性語(例:「明るい」「荘厳」)とのベクトル類似度を算出し、対応分析により音響特徴量との関係性を可視化する。各楽曲についてCLAPにより感性語とのコサイン類似度を求め、さらにMIRToolBoxによりテンポや調性などの音響特徴を抽出し、グループ化した上でクロス集計表を作成し、対応分析を行うことで、音響特徴と感性語の対応関係を明らかにする。これにより、CLAPベクトル空間における感性表現の傾向を明らかにし、今後の楽曲推薦や自動ラベリングの精度向上に貢献することを目指す。 |
E-040 |
出力結果に強弱を伴ったオーケストレーションを行う自動編曲システム
○奥村 静・西浦 良太・土屋 誠司・渡部 広一(同志社大学)
×
E-040出力結果に強弱を伴ったオーケストレーションを行う自動編曲システム
○奥村 静・西浦 良太・土屋 誠司・渡部 広一(同志社大学)
Googleから2018年に発表されたMultitrack Music Transformer(通称MMT)という作曲AIでは、強弱は楽曲生成過程においてノイズであると判断されており、一定の音量のまま楽曲が出力されるようになっています。これに対して、強弱は音楽において必要不可欠な要素であり、精度向上のためとはいえ強弱を一定にするのはナンセンスだという課題があります。そこで本研究では強弱の要素を含んだ楽曲生成を実験し、他の方法で精度を担保することを考えました。同時に、作曲よりも難易度の高い編曲についても、強弱を含んだまま出力することに挑戦しました。その結果、実行パターンによって精度のばらつきは残りましたが、MMTと同度の評価を得る編曲生成結果を生み出すことができました。今後は精度のばらつきを抑えること、さらにはリアルタイム処理化することで人と即興でセッションできるようになると考えています。 |
E-041 |
LinkedMusic Project: Integrating Music Databases
○藤永 一郎(McGill University)
×
E-041LinkedMusic Project: Integrating Music Databases
○藤永 一郎(McGill University)
The LinkedMusic Project aims to transform music research by building a global digital library that integrates diverse music data using linked data principles. It converts metadata into flexible Resource Description Framework (RDF) formats with Wikidata-based Unique Resource Identifiers to enable cross-database searches. A key feature is Natural Language to SPARQL query translation using Large Language Models, allowing users without technical expertise to explore the data. The system supports multilingual and culturally sensitive searches, helping musicologists and the public discover global music genres, traditions, and performers. |
テキスト変換 |
9月4日(木) 15:30-17:30 5e会場
座長 梶原 智之(愛媛大学) |
E-042 |
音声信号を入力とする日本語から手話への機械翻訳
○木下 光太郎・宮﨑 太郎・金子 浩之(NHK)
×
E-042音声信号を入力とする日本語から手話への機械翻訳
○木下 光太郎・宮﨑 太郎・金子 浩之(NHK)
手話母語話者への情報保障を目指して、日本語を手話に翻訳しCG (Computer Graphics)で提示する手話CGの研究を進めている。 日本語を手話に翻訳する手法は、日本語テキストを入力とする翻訳モデルに基づいて検討が進められてきた。一方、音声信号を入力とする翻訳モデルは未検討であり、この実現により音声特有の間や抑揚が考慮された手話への翻訳が期待される。そこで本研究では、音声信号を入力とする翻訳モデルを構築し、その翻訳精度を検証した。その結果、音声から手話への翻訳モデルは、音声認識で出力された日本語テキストから手話への翻訳モデルと比較して、同等の翻訳精度を示すことが確認された。 |
E-043 |
ニュース速報の日本語-手話機械翻訳
○宮﨑 太郎(NHK放送技術研究所)・梶山 岳士(NHK財団)・箱﨑 浩平・村上 智哉・内田 翼・木下 光太郎・金子 浩之(NHK放送技術研究所)
×
E-043ニュース速報の日本語-手話機械翻訳
○宮﨑 太郎(NHK放送技術研究所)・梶山 岳士(NHK財団)・箱﨑 浩平・村上 智哉・内田 翼・木下 光太郎・金子 浩之(NHK放送技術研究所)
手話を母語とするろう者に重要な情報を伝えるために、日本語テキストを手話CG (Computer Graphics)に変換する技術の研究を進めている。このシステムでは、入力の日本語テキストを機械翻訳により手話単語列に翻訳し、翻訳結果にあわせて手話単語ごとに事前収録したモーションデータを接続し、CGアバターを動作させることで手話CGを制作する。 本稿では、緊急時などにテレビの画面上に表示されるニュース速報を対象とした機械翻訳技術について述べる。ニュース速報は極短文で情報を伝えるため、一般の文章とは異なる表現が使われる。ニュース速報に特化した日本語-手話対訳コーパスを用意し、このコーパスを学習に用いることで、翻訳性能が大幅に向上したので報告する。 |
E-044 |
大規模言語モデルを用いたテキスト入力に向けた個人メール文体への適応
◎猪飼 宗樹・加藤 恒夫・田村 晃裕(同志社大学)
×
E-044大規模言語モデルを用いたテキスト入力に向けた個人メール文体への適応
◎猪飼 宗樹・加藤 恒夫・田村 晃裕(同志社大学)
モバイル端末におけるテキスト入力に個人に特化した大規模言語モデル(LLM)を使用すれば入力操作が大幅に簡単になる可能性がある.本研究では,公開されている携帯メールコーパス「加藤安彦ケータイメイルコーパス」を用いてLLMを個人の携帯メール入力文に適応し,次単語予測精度を評価した.同メールコーパスは通信相手のメール文を含まないため,GPT-4oを用いて通信相手のメール文を推測し,推測した通信相手のメール文を元に入力文の生成を行うファインチューニングを行った結果,単語正解率,テストセットパープレキシティ,MRRにおいて改善を確認した. |
E-045 |
単語レベル差分プライバシーの日本語テキストへの適用とその特性の検証
◎前田 佑斗・安藤 一秋(香川大学)
×
E-045単語レベル差分プライバシーの日本語テキストへの適用とその特性の検証
◎前田 佑斗・安藤 一秋(香川大学)
自然言語処理における差分プライバシー技術の応用は,近年重要性を増しているが,日本語テキストに対する検証は依然として進んでいない.本研究では,複数の単語レベル差分プライバシーアルゴリズムを対象に,日本語テキストにおける特性を検証することを目的とする.具体的には,プライバシーパラメータと単語埋め込みモデルを用いた実験を通じて,プライバシー保護と有用性のバランスという観点から各アルゴリズムの挙動を検証する.実験の結果,日本語テキストにおける各アルゴリズムの挙動パターンが観察され,今後の研究への示唆が得られた.これらの知見は,日本語テキストの匿名化手法の開発において重要な一歩になると考えられる. |
E-046 |
生成AIを用いた知財金融向け特許情報活用支援技術の検討
○谷川 桂子・郡浦 宏明・細矢 淳(日立製作所)
×
E-046生成AIを用いた知財金融向け特許情報活用支援技術の検討
○谷川 桂子・郡浦 宏明・細矢 淳(日立製作所)
地方銀行は地域企業の成長に向けた提案を求められており,企業の成長支援には強み技術の把握が必須である。地域企業によるWeb等の公開情報が限られるなか,有用な公開情報として特許が期待されているが,技術的な背景知識のない銀行員が特許を読み解くのは困難であった。そこで,特許情報を銀行員に理解しやすい形で提供するため,特許の要約や比較,適用先分野の候補推定などに生成AIを活用する特許情報活用支援技術を検討し,プロトタイプを開発した。本技術により特許の読解ノウハウが不要となり,読解に基づく適用先分野の調査や競合企業技術の比較時間が約9時間から約18分へ短縮され,銀行職員の作業効率向上に貢献できると考える。 |
E-047 |
要約タスクにおけるテキストデータセット蒸留の性能比較
◎黄川田 拓実・伏見 卓恭(東京工科大学)
×
E-047要約タスクにおけるテキストデータセット蒸留の性能比較
◎黄川田 拓実・伏見 卓恭(東京工科大学)
データセット蒸留は、大規模データセットに含まれる知識を蒸留・圧縮し、元データとほぼ同等の性能を維持しつつ小規模なデータセットを生成する技術である。従来、主に画像分野での適用が進み、近年ではグラフやテキスト分類、マルチモーダル処理への応用報告が増加している。しかし、自然言語分野でのテキスト生成や対話などのtext2textタスクに対する蒸留研究は依然として少ない、本研究では、大規模言語モデル(LLM)を用いたtext2text形式の生成タスクに対して、複数のデータセット蒸留手法を比較する. |
情報抽出・言語分析 |
9月4日(木) 15:30-17:30 5f会場
座長 吉田 稔(徳島大学) |
E-048 |
事業内容文書からの取扱品目に関する情報の抽出
○川端 篤(滋賀大学/帝国データバンク)・南條 浩輝(滋賀大学)
×
E-048事業内容文書からの取扱品目に関する情報の抽出
○川端 篤(滋賀大学/帝国データバンク)・南條 浩輝(滋賀大学)
日本標準産業分類は,経済活動を分析するための基盤として広く利用されている.しかし,産業構造の変化に伴い,既存の産業分類だけでは最新の産業動向を正確に捉えることが困難となっている.本研究では,web等で容易に取得可能な企業の事業内容文書から取扱品目に関する情報抽出に取り組む.BERTや生成AIを用いて,固有表現抽出により文書中から取扱品目を抽出した後,エンティティリンキングにより取扱品目の曖昧性解消を行う.これにより,企業毎の取扱品目の分類を自動的に企業に付与できるようになり,分類コストを抑えられるだけでなく,分類の追加・変更にも対応可能となった. |
E-049 |
Few-shotプロンプティングによる小説台詞からの人間関係語の抽出
◎安田 大朗・安藤 一秋(香川大学)
×
E-049Few-shotプロンプティングによる小説台詞からの人間関係語の抽出
◎安田 大朗・安藤 一秋(香川大学)
日常対話を目的とした非タスク指向型対話システムは,ユーザとの長期的な信頼関係を構築するために,深い対話の継続が求められる.その実現には,ユーザの情報を把握・活用することが重要となるが,本研究では人間関係に着目する.しかし,既存の対話コーパスは個人情報が削除されているため,人間関係に関する情報が欠如している.そこで本研究では,日常対話の代替として小説台詞を活用する.我々の先行研究では,台詞に出現する登場人物や発話者に紐づく関係語を抽出するBERTモデルを提案した.しかし,複数の人間関係を含む台詞からの抽出に課題が残った.この課題を改善するため,本稿ではLLMにFew-shotプロンプティングを適用する手法を提案する. |
E-050 |
文脈依存語に対する対照学習に基づく皮肉検出
◎THET SAUNG AYE・綱川 隆司・西田 昌史(静岡大学)
×
E-050文脈依存語に対する対照学習に基づく皮肉検出
◎THET SAUNG AYE・綱川 隆司・西田 昌史(静岡大学)
皮肉表現の検出は、文脈への高度な依存性や暗示的な意味合いにより、自然言語処理における依然として困難な課題の一つである。本研究では、文脈に応じて文字通りにも皮肉的にも解釈され得る語(例:「lovely」「wonderful」)に着目し、対照学習を用いた埋め込み表現の獲得を試みる。具体的には、こうした語が現れる多様な文脈から意味の対比が生じる文ペアを構築し、それらを用いて意味の変化を捉える表現を学習する。学習した埋め込み表現は、線形プロービングにより皮肉検出タスクで評価される。実験の結果、特定の語に関して、対照学習により得られた埋め込み表現が、従来のファインチューニング手法と同等の性能を達成することが確認された。 |
E-051 |
入出力文間の同義判定による語順整序の精度向上
◎吉田 嵐・大野 誠寛(東京電機大学)・松原 茂樹(名古屋大学)
×
E-051入出力文間の同義判定による語順整序の精度向上
◎吉田 嵐・大野 誠寛(東京電機大学)・松原 茂樹(名古屋大学)
日本語は語順が比較的自由であるが,実際には選好が存在しているため,意味は伝わるものの読みにくい語順を持った文が作成されることがある.そのような読みにくい文に対して,意味を変えずに読みやすい語順に整えるという語順整序手法が提案されている.語順整序タスクでは,係り受け解析の失敗などにより,入力文と異なる意味に解釈される文が出力されることがあり,それをいかに回避するかという課題がある.そこで本稿では,既存の語順整序手法に対して、その入力文と出力文の間で文意が同一であるか否かを判定する機構を導入することにより,語順整序の精度向上を試みる. |
E-052 |
Bi-LSTMによる音象徴モデルと文書埋め込みモデルに基づく義訓生成
◎増田 陽星・目加田 慶人(中京大学)
×
E-052Bi-LSTMによる音象徴モデルと文書埋め込みモデルに基づく義訓生成
◎増田 陽星・目加田 慶人(中京大学)
義訓とは,漢字に対して文脈に応じたその場限りの読みを当てる技法で,創作物を中心に多様な用法がある.本発表では,日本語の入力文に対して自動的に義訓を付与する手法を提案し,評価を行う.提案手法では,親文字とルビの関係から義訓の候補語を取得したのち,選定する.選定には,文脈的妥当性を評価するために文書埋め込みモデルであるSBERT,あるいは候補語の持つ音象徴性を予測するために構築したモデルを用いる.この音象徴モデルは,語から想起される強弱に注目し,Bi-LSTMを用いて学習を行う.被験者実験を実施し,提案手法によって生成された義訓と実際の用例とを比較することで,その表現的妥当性を検証した. |
音楽(推薦・可視化) |
9月4日(木) 15:30-17:30 5g会場
座長 酒向 慎司(名古屋工業大学) |
E-053 |
(講演取消) |
E-054 |
プレイリストに内在する人間の潜在的認識を反映した楽曲特徴量の提案
◎西原 泰宇・市川 治(滋賀大学)
×
E-054プレイリストに内在する人間の潜在的認識を反映した楽曲特徴量の提案
◎西原 泰宇・市川 治(滋賀大学)
音楽の配信サービスにおいては,一般のユーザーが作成したプレイリストが多数公開されている.本報告では,それらをユーザの感性や選好が反映された集合知とみなし,ユーザーの感性を反映した新たな楽曲特徴量を抽出することを考える.具体的には,まず直接的な音響特徴を入力とし対応するプレイリストを推定する深層学習モデルを構築し,次に学習済みのモデルの中間層から潜在表現を取り出だすことを行う.その潜在表現を新たな楽曲特徴量として楽曲推薦などに使用する.評価実験では,提案法の特徴量が楽曲の特徴空間を緻密に表現できているかを検証した.また,楽曲推薦においてユーザーの嗜好に合った楽曲が推薦できているかの検証を行った. |
E-055 |
アクセシビリティ向上に着目した音楽可視化システムの検討
◎前澤 桃子・澤谷 郁子・藤森 真綱・小峯 一晃・澤畠 康仁・宮崎 勝(NHK放送技術研究所)
×
E-055アクセシビリティ向上に着目した音楽可視化システムの検討
◎前澤 桃子・澤谷 郁子・藤森 真綱・小峯 一晃・澤畠 康仁・宮崎 勝(NHK放送技術研究所)
NHK放送技術研究所では,「音楽の可視化による新しいコンテンツ表現」の実現に向けて,音楽分析から可視化デザイン,ソフトウェア実装まで一貫した研究開発を進めている.今回,聴覚障害者にコンテンツの音楽の内容や印象を伝える試みとして,放送された音楽番組を対象にその曲の特徴を分析し,演奏情報と楽理情報,それらから喚起される情感情報に対する可視化デザインを進め,ポストプロダクション向けの音楽可視化ソフトウェアに実装した.本稿では,それらの取り組みとともに,音楽可視化コンテンツを試作した成果と評価実験結果について報告する. |
E-056 |
インタラクティブ性の高い音楽演出のための自然なトランジションのリアルタイム生成手法の検討
◎村瀬 朱音(京都大学)
×
E-056インタラクティブ性の高い音楽演出のための自然なトランジションのリアルタイム生成手法の検討
◎村瀬 朱音(京都大学)
ビデオゲーム等では、状況の変化に合わせて音楽を切り替える際に、演出として、間をスムーズにつなぐ「トランジション」を挟むことがよく行われている。しかしトランジションは、素材の準備、遷移タイミングのアノテーションなどの高いコストをかけて生成されているのが現状である。そこで本研究では、リアルタイムなトランジションの生成手法について検討した。具体的には、ドラムループを対象として、StyleGAN2における入力ベクトルのモーフィング、あるいはスタイルミキシングに基づいて、前後の楽曲の補間比率も考慮しつつ、1小節のトランジションを生成する実験を行った。本稿では、その結果などを報告する。 |
E-057 |
リズムグルーヴ可視化における解釈可能性の改善に関する一検討
○松川 瞬・松本 拓・鈴木 昭弘・荒澤 孔明・松﨑 博季(北海道科学大学)
×
E-057リズムグルーヴ可視化における解釈可能性の改善に関する一検討
○松川 瞬・松本 拓・鈴木 昭弘・荒澤 孔明・松﨑 博季(北海道科学大学)
近年,音楽のリズムによる身体的高揚感=グルーヴは音楽体験の重要な要素であり,グルーヴの定量的な解明が求められる。LSTM変分オートエンコーダ(LSTM-VAE)の中間層で得た確率分布間の情報量からリズム波形の特徴を定量的に取得・可視化する事はグルーヴの理解に繋がったが,ノイズによる影響も大きく,アクセントの弱い箇所における算出が困難であった。本研究ではVAEに自己組織化マップ(SOM)を組み合わせたSOM-VAEの考えを用い,離散空間でのノイズに頑健な特徴取得かつマップによる解釈可能性の高い可視化を試みる。 |
E-058 |
二重スリット実験における量子の振る舞いの可聴化
◎畠山 彩音・奥出 真理子(茨城工業高等専門学校)
×
E-058二重スリット実験における量子の振る舞いの可聴化
◎畠山 彩音・奥出 真理子(茨城工業高等専門学校)
二重スリット実験は,量子力学において粒子の波動性と観測問題を象徴する有名な物理実験であり,ダークフォトン理論の提唱により改めて注目を集めている.量子分野ではシミュレーション技術が活用されており,近年,映像や音楽などの芸術や教育分野への応用が検討されている.本研究は,二重スリット実験における量子の振る舞いの音響的な表現を探求し,直感的な聴覚表現を提供することを目的とする.まず,シミュレーションから得た空間格子上の量子の存在確率分布から可聴音を生成し,さらにその時間変化から各格子上の旋律と空間音響の作成を試みた.その結果,二重スリット実験における量子の振る舞いが聴覚的に表現できる可能性を確認した. |
対話 |
9月5日(金) 9:30-12:00 6f会場
座長 坂地 泰紀(北海道大学) |
E-059 |
人狼ゲームにおける対話相手の性格特性に基づく説得戦略の検討
◎小濵 賢史・南條 浩輝(滋賀大学)
×
E-059人狼ゲームにおける対話相手の性格特性に基づく説得戦略の検討
◎小濵 賢史・南條 浩輝(滋賀大学)
人狼ゲームにおける対話相手の性格特性を踏まえて説得を切り替える戦略について検討を行った. 本論文では,性格特性を踏まえた発言が有効な説得力を持つかをアンケート調査したのでその結果について述べる. あわせて,相手の発言から性格特性を推測することも検討したのでそれについても述べる. |
E-060 |
授業グループワークにおける発話の意味量指標の提案とその効力の評価
◎後藤 礼雄・市川 治(滋賀大学)
×
E-060授業グループワークにおける発話の意味量指標の提案とその効力の評価
◎後藤 礼雄・市川 治(滋賀大学)
小中学校のグループワーク授業においては,生徒ひとり一人の発話をテキストに変換し分析することで,グループワークの対話構造を明らかにする試みが行われている.ここでは「意味のある発話」,すなわち対話の流れを形成しうる発話がなされたかが,重要な評価視点となる.そこで,そのような発話の重要性を「発話の意味量」と定義し,客観的な指標として提案する.発話の意味量が多い発話は,その発話をうけて後続の発話が触発されてつながることが多く,またその時間的な効力(遠い発話にもつながる確率)も高いことが期待される.本研究では,有効な「発話の意味量」を提案し,発話が後続の発話につながる確率,及び時間的な効力を定量的に検証する. |
E-061 |
雑談型対話システムにおける話題内容を考慮した話題転換応答の提案
◎小柳津 賢人・土屋 誠司・渡部 広一(同志社大学)
×
E-061雑談型対話システムにおける話題内容を考慮した話題転換応答の提案
◎小柳津 賢人・土屋 誠司・渡部 広一(同志社大学)
近年,ロボットとの対話がコミュニケーションの手段の一つとして挙げられ,様々な場面でロボットが人間のパートナーとして活躍することが期待されている.そのためには,人間とロボットが自然で円滑な意思疎通を行う必要がある. 既存の対話システムでは,話題の転換を行う際の応答文の数が少なく,またその時の応答がそれ以前の会話の内容を考慮していないという問題がある.そこで,本研究では,話題転換の際に話者の会話履歴とシソーラス上での単語間の上位下位関係を活用することで,この問題を解決する. |
E-062 |
共感性を考慮した応答生成による傾聴対話モデルの改善
◎松本 奈々・安藤 一秋(香川大学)
×
E-062共感性を考慮した応答生成による傾聴対話モデルの改善
◎松本 奈々・安藤 一秋(香川大学)
近年,日本における高齢化の進行に伴い,要介護者数も増加している.介護現場では,高齢者の発言に傾聴し,共感することが信頼関係の構築に重要であり,その実現手段の一つとして「バリデーション」が注目されている.しかし,介護士の人材不足や介護負担の増大などの問題により,個人に十分な時間をかけてケアすることが困難である.本研究では,介護環境の改善を目指して,バリデーションを活用した対話システムの構築を目的とする.著者らの先行研究では,発話の感情傾向を考慮した応答生成や共感の深さに関して課題が明らかになった.そこで本稿では,これらを考慮した対話応答生成の改善を試みる. |
E-063 |
小説テキストを用いた雑談対話コーパスの自動構築手法
◎岩本 和真・安藤 一秋(香川大学)
×
E-063小説テキストを用いた雑談対話コーパスの自動構築手法
◎岩本 和真・安藤 一秋(香川大学)
Large Language Model(LLM)の登場により,対話システムが注目されている.対話システムを構築するには,高品質で規模の大きい対話コーパスの整備が不可欠である.しかし,日本語の対話コーパスの整備は徐々に進められているものの,英語の対話コーパスと比較して圧倒的に数が少ない.特に雑談対話コーパスは,人間同士の自由なやりとりを記録・整理して構築する必要があるため,その構築には膨大なコストがかかるという課題がある.本研究では,この課題を解決するために,小説テキストを活用して雑談対話コーパスを自動構築する手法を提案する.また,提案手法を用いて構築した雑談対話コーパスを定量的に分析し,その有効性を考察する. |
E-064 |
個人の経歴情報に基づいた質問生成機能の検討
◎伊藤 奈桜・田中 毅・間瀬 正啓・梁 宇シン(日立製作所)
×
E-064個人の経歴情報に基づいた質問生成機能の検討
◎伊藤 奈桜・田中 毅・間瀬 正啓・梁 宇シン(日立製作所)
大規模言語モデル(LLM)は対話能力の向上により、言語処理の定型的なタスクを実行するだけでなく、インタビュー等で人から情報を引き出すといった用途についても活用が検討されている。プロンプトエンジニアリングによりクライアント自身の変化に向けた発言を促進させる面接会話エージェントの構築方法が提案されているが、引き出したい観点を的確に聞き出すための質問生成方法は明らかでなかった。そこで、相手の経歴やそれまでの発話内容に応じて自動的に深堀質問を生成するための方法を提案する。経歴書に基づく人事面接を想定したシナリオにおいて、生成した質問の妥当性に関する主観評価を、被験者8人により、5個の観点について行った。その結果、あらかじめ設定された一般的な質問文と比較して、提案手法により効果的な質問が生成できることが確認された。この手法は人事面接に限らずカウンセリングや窓口相談等、情報取得が目的の対話を伴う様々な場面に応用できる可能性がある。 |
E-065 |
個人の嗜好に基づき記憶が曖昧になる人間らしい雑談対話システムの実現
◎堀池 駿輔・欅 リベカ・大竹 正彦・伏見 卓恭・岩下 志乃(東京工科大学)
×
E-065個人の嗜好に基づき記憶が曖昧になる人間らしい雑談対話システムの実現
◎堀池 駿輔・欅 リベカ・大竹 正彦・伏見 卓恭・岩下 志乃(東京工科大学)
本研究は,個人的な嗜好に基づき記憶が曖昧になる雑談対話システムを構築し,人間らしさを表現することを目指す.対話の生成にはGPTを用い,個人ごとの記憶保持にRAGを用いる.システムのキャラクター設定として,GPTのプロンプトに趣味や興味などの個人的な嗜好の情報を与える.一定時間ごとに対話履歴の要約をRAGに保存する.人間が興味のない内容を早く忘却する特徴を反映するため,要約ごとに興味度を計算し,興味の低いデータは早く減少させる.また,人間の記憶の曖昧性を反映するため,要約内の特徴的な単語にノイズを与える.本手法を用いて対話生成を行ったところ,システムによる発話に人間のような忘却の特徴が見られた. |
個人性・マルチモーダル |
9月5日(金) 13:10-15:40 7f会場
座長 藤田 篤(情報通信研究機構) |
E-066 |
音楽推薦におけるセマンティックギャップと認識ギャップの解消
◎岡田 祐久・島川 博光・原田 史子(立命館大学)
×
E-066音楽推薦におけるセマンティックギャップと認識ギャップの解消
◎岡田 祐久・島川 博光・原田 史子(立命館大学)
音楽ストリーミングサービスの普及に伴い、ユーザ満足度を高める音楽推薦システムの重要性が増している。従来手法では、ユーザとモデルの意図の差が大きく、推薦結果の修正も困難である。本論文では対話を通じてユーザの嗜好を把握し、推薦結果に対するユーザのフィードバックを基にモデルの修正可能な動的推薦システムを提案する。ファインチューニングされた対話エージェントにより、好みを抽出し、推薦を行う。さらに、Attention機構を基に推薦理由を説明し、それに対するユーザからのフィードバックを基にモデルを修正する。この手法により、ユーザの意図と推薦内容の一致度を高め、よりパーソナライズされた推薦が可能になる。 |
E-067 |
キャラクターシナリオ自動生成に向けた新規情報判定の検討
◎高橋 聖弥(名古屋工業大学)・岩田 伸治(サイバーエージェント)・伊原 滉也(名古屋工業大学/サイバーエージェント)・加藤 昇平(名古屋工業大学)
×
E-067キャラクターシナリオ自動生成に向けた新規情報判定の検討
◎高橋 聖弥(名古屋工業大学)・岩田 伸治(サイバーエージェント)・伊原 滉也(名古屋工業大学/サイバーエージェント)・加藤 昇平(名古屋工業大学)
アニメやゲームなどのキャラクターコンテンツでは、キャラクターの魅力を引き出すために、既存のシナリオや設定資料には記載されない新たな情報を含む追加シナリオが制作されることがある。本研究ではこうした追加シナリオの自動生成の創作支援を目的とする。ストーリー生成の枠組みでは、生成・批評・改善を繰返す手法が有力であり、新たな情報の表出を目的とする場合には、生成の過程で新規情報の有無を適切に評価することが重要となる。しかし、大規模なシナリオを直接繰り返し処理することはトークンコストの課題がある。そこで本研究では、テキスト中に出現する設定情報を効率的に抽出し、新規情報判定に活用する手法を検討した。 |
E-068 |
テキスト・マルチモーダル埋め込みによるEmoji意味空間の可視化
○奥村 太一・南條 浩輝(滋賀大学)
×
E-068テキスト・マルチモーダル埋め込みによるEmoji意味空間の可視化
○奥村 太一・南條 浩輝(滋賀大学)
近年、絵文字(emoji)はテキストコミュニケーションにおいて重要な意味的役割を果たしており、その潜在的な意味構造を理解することは、自然言語処理や人間とAIのインタラクションにおいて有益である。本研究では、テキスト埋め込みモデルによって得られる絵文字の埋め込み表現を対象に、次元削減手法を用いて可視化を行った。また、絵文字画像(Twemoji)をCLIPモデルに入力し、マルチモーダルな視点からも絵文字の意味空間を可視化した。これらの分析を通じて、AIモデルが絵文字をどのように捉え、意味的にどのような関係を構築しているのかを考察する。 |
E-069 |
MECHA-Ja を用いた視覚言語モデルの日本の文化・常識理解度の評価
○長谷川 騎平(愛知工業大学/国立情報学研究所)・徳久 良子(愛知工業大学/理化学研究所)・前田 航希(東京科学大学/国立情報学研究所)・小田 悠介(国立情報学研究所)・栗田 修平(理化学研究所/国立情報学研究所)・岡崎 直観(東京科学大学/国立情報学研究所)
×
E-069MECHA-Ja を用いた視覚言語モデルの日本の文化・常識理解度の評価
○長谷川 騎平(愛知工業大学/国立情報学研究所)・徳久 良子(愛知工業大学/理化学研究所)・前田 航希(東京科学大学/国立情報学研究所)・小田 悠介(国立情報学研究所)・栗田 修平(理化学研究所/国立情報学研究所)・岡崎 直観(東京科学大学/国立情報学研究所)
近年の視覚言語モデル(VLM)では,地域特有の文化や常識に関する理解が重視されベンチマークの整備が進められている. 本発表では,我々が構築している日本の文化や常識の理解を評価する視覚言語ベンチマークMECHA-Ja(Multimodal Everyday-life and Cultural Habits Assessment for Japanese)に対して「日本らしさ」と「日常らしさ」のラベルを付与することで,MECHA-Jaが「日本独自の内容/日常的な内容」を評価するベンチマークになっているかどうかを調べると共に,ChatGPT4oやLlamaなどの主要なVLMが日本の文化や常識をどの程度理解できるかを調査した結果を報告する. |
E-070 |
Transformerモデルを応用したテキストベースの画像理解および分類手法の提案
◎高橋 秀常・小野田 弘士(早稲田大学)
×
E-070Transformerモデルを応用したテキストベースの画像理解および分類手法の提案
◎高橋 秀常・小野田 弘士(早稲田大学)
近年,画像キャプション生成の技術が進展し,その自然言語処理による応用範囲が広がりつつある.本研究では,Transformerモデルを用いて両者を組み合わせたアルゴリズムを開発することで,画像分類に対する言語的アプローチと,リサイクル等の現場で喫緊の課題となっているリチウムイオン電池を搭載した使用済み小型家電の認識への応用を提案する.具体的には,12,000枚以上の関連画像への詳細なキャプションを得て処理を加え,Transformerモデルに対して複数条件下でファインチューニングを行った.これらを通して,画像認識における自然言語処理の応用を試みるとともに,CNNベースのモデルとの補完的なアプローチを提案する. |