連続セミナー2023「人とAIが共生する社会に向けた情報技術」
第3回【7月21日(金) 13:00~16:00】
対話AI最前線:ChatGPTとその先にある可能性
近年、スマートフォン上の音声エージェントやコミュニケーションロボットが私たちの生活に欠かせない存在となってきました。加えて、ChatGPTをはじめとする大規模言語モデルを用いた対話システムも日常的に用いられるようになってきており、対話システムの研究と開発は急速に進展しています。本セミナーでは、対話システム研究の全体像を示すとともに、ChatGPT等の大規模言語モデルがどのようにして構築されるのか、その学習方法やアーキテクチャについて触れます。さらに、大規模言語モデルを活用した対話システムの構築方法を紹介します。また、マルチモーダル情報(テキスト、画像、音声など)の統合による対話システムの構築方法や、ロボットを用いた対話システムへの展開についても詳しく解説します。本セミナーでは、具体的な実装方法や実証実験の事例を交えながら、対話システムの最新動向や今後の展望について議論を深めます。参加者の皆様の、対話システム開発における新たなアイデアやプロジェクトの立ち上げに繋がることを目指しています。
-
[13:00-13:30]Session1「対話システムの概要」
ChatGPTなどの大規模言語モデルの登場によって、今まで以上にコンピュータと対話をすることが日常となってきました。この講演では、以降の講演の導入として、人間と対話を行うコンピュータシステムである対話システムの概要を説明します。具体的には、対話システムの定義や意義、対話システムの歴史や類型、対話システム構築の方法論、評価の方法などを分かりやすく紹介します。対話システムの全体像をお伝えするとともに、対話システムの研究者が対話のどのような点に着目して研究を進めているのかも紹介できればと思います。
東中 竜一郎(名古屋大学 大学院情報学研究科 知能システム学専攻 教授)
【略歴】2001年慶應義塾大学大学院政策・メディア研究科修士課程、2008年博士課程修了。2001年日本電信電話株式会社入社。2020年より、名古屋大学大学院情報学研究科教授。NTT人間情報研究所客員上席特別研究員。慶應義塾大学環境情報学部特別招聘教授。対話システムの研究に従事。著書に「Pythonでつくる対話システム」(オーム社)、「AIの雑談力」(KADOKAWA)、「対話システムの作り方」(近代科学社)など。博士(学術)。 -
[13:30-13:40]休憩
-
[13:40-14:10]Session2「大規模言語モデルを用いた対話システム」
ChatGPTの登場に伴って、大規模言語モデル(Large Language Model、LLM)という自然言語処理技術が注目されています。大規模言語モデルとは、インターネット上の多量のテキストデータを学習することで、多様な入力に対して自然なテキストを生成できるモデルを指します。ChatGPTに代表される大規模言語モデルは自然なチャットを実現し、多様な課題を解決することができるようになりました。本講演では、大規模言語モデルの学習方法、および、大規模言語モデルを活用した対話システムについて解説します。大規模言語モデルがテキストデータをどのように学習し高度な言語処理能力を持つようになるのかについて、理論的な背景を踏まえつつ、なるべく平易に説明します。また、対話システムの話題を中心に、日々範囲が広がる大規模言語モデルの応用について紹介します。本公演を通じて、参加者の皆様が大規模言語モデルや対話システムの具体的な活用方法、注意すべき点について理解を深めていただくことを目指します。
光田 航(rinna株式会社 Research & Data Applied Scientist)
【略歴】2013年東京工業大学工学部情報工学科卒業。2015年同大学院情報理工学研究科修士課程修了。2021年筑波大学大学院システム情報工学研究科博士課程修了。2015年から2023年まで、日本電信電話株式会社研究員。2023年より、rinna株式会社Applied Scientist。自然言語処理、対話システムの研究開発に従事。博士(工学)。 -
[14:10-14:20]休憩
-
[14:20-14:50]Session3「マルチモーダル情報に紐づけられた対話システムへの期待と今後の課題」
ChatGPTに代表される大規模言語モデルが頭角を現してから、大規模言語モデルの学習に画像や音声といった様々なモダリティの情報を加えることで、大規模言語モデルをより汎用的に、様々な問題解決に使いたいという動きが世界的にますます活発化してきています。特に、視覚と言語を組み合わせるVision&Languageの研究領域では、画像情報を中心として実世界の意味をエージェントがどのように理解し、活用できるかという視点から研究が進んでいます。人間を効果的に支援するために対話システムとして問題解決を行う研究も増えてきており、本講演では、このようなマルチモーダルな意味理解を伴う対話システムの解説を中心に行います。具体的には、近年の研究のトレンドについて解説しつつ、その中で大規模言語モデルがどのように活用されるのか、どのようなことが可能か、新たにどのような課題が出てきているかについて紹介します。
品川 政太朗(国立大学法人 奈良先端科学技術大学院大学 先端科学技術研究科 情報科学領域 助教)
【略歴】2013年東北大学工学部,2015年同大学大学院情報科学研究科修士(情報科学)を修了。2020年9月に奈良先端科学技術大学院大学で博士(工学)を取得し,同年11月より同大学で助教として従事。視覚と言語双方の領域を中心として幅広く興味を持ち,主に視覚情報を利用する対話システムの研究に従事。 -
[14:50-15:00]休憩
-
[15:00-15:30]Session4「実空間で働く音声対話ロボットの課題と展望」
近年の労働人口減少を受けて、実空間で働く音声対話ロボットは省人化や生産性向上への効果が期待されています。ChatGPTの出現で飛躍的にテキスト対話の応答性能は向上しましたが、実サービスとして店舗や公共空間にて運用するには多くの技術的な課題が残っています。本講演では、現代社会において音声対話ロボットが直面する課題とその将来展望について解説します。講演者がこれまで実施した数多くの実証実験から感じている、実空間での音響環境への対応、テキスト対話にはない音声対話の独自の課題、身体を持つロボットに起因する課題についてご紹介するとともに、解決するための技術やアプローチについて議論します。
馬場 惇(株式会社サイバーエージェント AI Lab 主任研究員)
【略歴】2014年京都大学情報学研究科を修了後、サイバーエージェントに入社。2014年に広告部門初の研究組織を立ち上げ、広告配信最適化の研究開発に従事。同時に、データサイエンティストとして広告配信事業のロジック開発責任者を兼任。2017年から現在まで、AI Lab 接客対話エージェントグループの主任研究員として、大阪大学大学院基礎工学研究科との先端知能システム共同研究講座の運営責任者を務め、ヒューマンロボットインタラクション、機械学習、対話システム、遠隔アバターロボットの研究に従事している。 -
[15:30-16:00]パネルディスカッション