連続セミナー2025「AIが拓く次世代イノベーション」
第3回、第4回【7月17日(木) 10:00~16:40】 ※ハイブリッド開催(化学会館5階)
LLMの開発・活用の新展開
大規模言語モデル(LLM)は過去数年間にわたって生成AI分野の驚異的な成長を牽引し続けており、その技術的な進展の速さと大規模な社会的変革につながる影響力の強さにおいて比類のない役割を担っているといえる。本連続セミナーではこのような変化の激しいLLMの技術動向や運用・サービスの現状についてのチュートリアル的講演と、日本をリードするLLM開発事業者による研究開発事例の講演を企画し、情報処理学会会員へのタイムリーな情報提供を行う。
-
[10:00-10:15]オープニング
大規模言語モデル(LLM)は、この数年間に驚異的なスピードと規模で技術的に進化を続けており、実社会での利活用も同様に前例のないレベルで発展しています。この1年ほどの間に、LLMの推論能力は大きく向上し、高い自律性を備えたAIエージェントや学会に採択されるレベルの論文を自動生成するLLMが登場するなど、驚きのニュースが途切れることがありません。オープンなLLMが多数公開され、先端的な研究成果を検証できる可能性が高まる一方で、ハルシネーションや安全性の問題はより一層注目を集めるようになりました。本オープニングでは、このような「LLMの開発・活用の新展開」の背景と、これに関連する活動としていわゆる「AI法案」や学術会議提言「生成AIを受容・活用する社会の実現に向けて」について簡単に紹介します。
武田 浩一(大学共同利用機関法人 情報・システム研究機構 国立情報学研究所 大規模言語モデル研究開発センター 副センター長・特任教授)
【概略】1983年から2017年まで日本アイ・ビー・エム株式会社東京基礎研究所に勤務。2017年に名古屋大学大学院情報学研究科価値創造研究センターにセンター長・教授として着任。2024年より国立情報学研究所大規模言語モデル研究開発センター副センター長・特任教授(現職)。博士(情報学)。情報処理学会フェロー。 -
[10:15-11:15]Session1「大規模言語モデルの開発」
本講演では、大規模言語モデル(LLM)開発の最新動向と実践的手法について体系的に解説する。まず、事前学習および事後学習において鍵となるデータの構築手法を紹介する。具体的には、大規模ウェブコーパスの収集とフィルタリング、コードや数学に関する高品質な学習データの構築、そしてLLM自身による模倣学習・自己評価に基づく合成データ作成など、近年注目を集めているアプローチを取り上げる。さらに、LLMが扱える文脈長の拡張やGroup Relative Policy Optimization(GRPO)など、LLMの推論能力を強化する手法についても解説する。また、最近の評価ベンチマークやLLM-as-a-judgeの活用事例などを交えながら、LLMの適切な評価方法について議論する。
岡崎直観(東京科学大学 情報理工学院 教授)
【略歴】2007年東京大学大学院情報理工学系研究科博士課程修了。博士(情報理工学)。東京大学大学院情報理工学系研究科・特任研究員、東北大学大学院情報科学研究科准教授を経て、2017年8月より東京科学大学情報理工学院教授(現職)。自然言語処理の研究に従事。言語処理学会理事、日本ディープラーニング協会理事。平成28年度科学技術分野の文部科学大臣表彰若手科学者賞、第15回船井学術賞、2016年度マイクロソフト情報学研究賞などを受賞。 -
[11:15-11:25]休憩
-
[11:25-12:25]Session2「LLM利活用の動向」
ChatGPTの登場を契機に、LLM(大規模言語モデル)は業務や社会の在り方に大きな変革をもたらしています。本講演では、2025年7月時点でのLLMをめぐる技術動向や業界の潮流を俯瞰するとともに、昨今注目されるAgentic AIや、開発文脈で重要性が高まるModel Context Protocol(MCP)といったトピックにも触れます。また、実際に企業で導入された公開事例を中心に、どのような課題にLLMが適用され、どのような価値が生まれているのかを紹介します。※変化の激しい分野のため、当日の講演内容が一部変更となる可能性があります。
岩崎喬一(日本マイクロソフト株式会社 インダストリーソリューション事業本部 ソリューション・アーキテクト)
【略歴】日本マイクロソフトのソリューションアーキテクトとして、AI・データ利活用の設計やMLOps運用支援に従事。海外案件や社内外での講演も多数。総研大博士課程(統計科学)にて数理的な研究にも取り組み実務と理論の架け橋を目指して活動している。 -
[12:25-13:30]休憩
-
[13:30-14:00]Session3「PLaMoとPreferredAIの最前線」
本講演では、私たちがGENIACなどの取り組みを通じて開発を進めてきた国産の大規模言語モデル「PLaMo」について、その開発の背景、これまでの活用事例、そして今後の発展に向けた展望を解説する。また、生成AIプロダクト群「PreferredAI」も紹介し、企業の業務効率化やコンテンツ生成を支援する具体的なツールやユースケースを取り上げる。生成AIがどのように構築され、どのように実際の現場で活用されているのかについても詳しく述べ、今後の可能性について展望を示したい。
岡野原 大輔(株式会社Preferred Networks 共同創業者 代表取締役 最高技術責任者 最高研究責任者)
【概略】情報理工学博士。東京大学大学院在学中に、西川徹等とPreferred Infrastructureを創業。2014年にAIの実用化を加速するためPreferred Networksを創業。現在は国産大規模言語モデルPLaMo™や汎用原子レベルシミュレータMatlantis™など、PFNの生成AIをはじめとするコア技術の研究開発および事業化をリード。Matlantisの販売を行うPreferred Computational Chemistryの代表取締役社長を兼任。受賞歴、著書多数。 -
[14:00-14:30]Session4「SB Intuitionsにおける基盤モデル開発とサービス化」
SB Intuitionsは、ソフトバンクグループの強力な計算機資源を背景に、大規模な基盤モデルの内製開発に注力している。特に、事前学習を含む大規模な言語モデルの開発をベースに、画像や音声など複数のモダリティを扱うマルチモーダル基盤モデルの開発も進行中である。これらの基盤モデルは、単なる質問応答にとどまらず、自律エージェントと統合されることでさらなる進化を遂げようとしています。自律エージェントによる、深い情報収集や、より高度な意思決定が可能となり、より実応用における可能性が広がる。本講演では、これらの最新の開発状況について詳しく紹介し、現状のサービス展開に向けた展望や将来的な可能性についても触れる。
井尻善久(SB Intuitions株式会社 取締役兼CRO)
【略歴】2002年オムロン入社、顔画像処理の研究、製造業向け画像センサ等の開発、ロボティクス研究などを経て2018年オムロンサイニックエックス立ち上げ。2021年LINEに入社しAI研究開発組織化。2023年よりソフトバンク(SBKK)に兼務、さらにその100%子会社SB Intuitionsの研究開発部門立ち上げ、国産大規模言語モデルおよび大規模基盤モデル開発のチームを組織化し今に至る。 -
[14:30-14:40]休憩
-
[14:40-15:10]Session5「LLM開発を支えるエヌビディアの生成AIエコシステム」
エヌビディアはAgentic AIおよびPhysical AIの普及の為の様々な取り組みを行っています。本講演では、Agentic AIの為にエヌビディアが提供しているエコシステムについて、大規模言語モデル(LLM)開発向けソフトウェアを含めて概説します。LLMの学習、推論の為のソフトウェア状況、最新の機能アップデートから、Llama Nemotronのようなエージェント向けのモデルの開発状況まで網羅的にご紹介する予定です。
村上真奈(エヌビディア合同会社 Solution Architecture and Engineering Solution Architect Manager)
【略歴】 2007年に早稲田大学教育学部理学科数学専修を卒業後、独立系ソフトウェアベンダーにて写真シール機や放送機器への画像処理の組み込み開発に携わる。電機メーカーの研究所を経て2015年にNVIDIAに入社。CUDAエンジニアとしてNVIDIAの汎用計算プラットフォームCUDAの技術や取り組みについて周知する活動やトレーニングおよびカスタマーサポートに従事。その後シニアソリューションアーキテクトとしてAI、5G vRAN、GPUコンピューティングの技術サポートおよび日本の通信業界への普及活動を担当、現在はソリューションアーキテクトマネージャーとして生成AIワークロードにおけるGPUの活用を推進活動を担当している。 -
[15:10-15:40]Session6「Qwen2.5-32B / 7Bの日本語継続事前学習および、QwQ32Bを使った日本語Reasoningモデルの構築」
Alibaba社が開発したQwen2.5-32Bおよび7Bをベースに、日本語特化の継続事前学習および蒸留を行い、日本語性能にどのような変化が生じたかを紹介します。32Bモデルでは継続事前学習により日本語理解を強化し、指示追従性は差分Vectorによって補完。7Bモデルでは、この32Bモデルの出力を用いた蒸留により、日本語性能の向上を実現しました。さらに、QwQ-32Bの差分Vectorを活用し、追加学習を施すことで、日本語における推論能力を強化したReasoningモデルも構築しています。本講演では、これらの技術的アプローチと、その効果を具体的な評価結果とともに解説します。
本モデル群は、経済産業省とNEDOが実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」の支援を受けて開発されたものです。
大谷 真也(株式会社ABEJA データサイエンス部 部長)
【略歴】2014年神戸大学工学部卒業。2016年神戸大学大学院電気電子工学専攻修了。 同年にトヨタ自動車株式会社に新卒入社。駐車支援システムの開発に従事。その後、トヨタの北米拠点(Toyota Motor North America, Inc.)への派遣を経て、2021年にABEJAに参画。 ABEJAでは自然言語処理、Computer Vision、テーブルデータなど多岐に渡ったプロジェクトにデータサイエンティストとして従事。Hugging faceのGPT Neox Japaneseモデルの作者。GENIACプロジェクトでもLLM開発をリード。2024年に社会人ドクターとして博士(工学)を取得 -
[15:40-15:50]休憩
-
[15:50-16:10]Session7「国立情報学研究所におけるLLMの研究開発」
国立情報学研究所におけるLLMの研究開発活動を紹介します。国立情報学研究所では、大規模言語モデルに関するアカデミア研究拠点を構築して、生成AIモデルの透明性・信頼性の確保に向けた研究開発に取り組んでいます。本講演では、LLM構築のためのコーパス整備、モデル構築の過程、LLMのチューリングと評価など一連の工程を概観しつつ、フルオープンモデルであるllm-jpシリーズとそれを支えるオープンコミュニティllm-jpの活動をご紹介します。また、コーパス検索基盤、LLM入出力分析、安全性データセットの構築や安全性評価など、LLMの透明性や信頼性の確保に向けた研究開発を取り上げて概要を紹介します。さらに、LLMのドメイン適応、視覚言語、実環境インタラクション、対話など、高度化に向けた取り組みについても触れて、今後の課題を考察します。
相澤彰子(大学共同利用機関法人 情報・システム研究機構 国立情報学研究所 コンテンツ科学研究系/大規模言語モデル研究開発センター 教授)
【略歴】国立情報学研究所コンテンツ科学研究系教授/大規模言語モデル研究開発センター副センター長.1990年東京大学大学院工学系研究科博士課程修了.工学博士.学術情報センター助手,国立情報学研究所助教授を経て,2003年より現職.東京大学大学院情報理工学系研究科教授および総合研究大学院大学情報学専攻教授併任.専門は自然言語処理,情報検索. -
[16:10-16:40]パネル討論
岡崎直観(東京科学大学 情報理工学院 教授)
-
岡野原 大輔(株式会社Preferred Networks 共同創業者 代表取締役 最高技術責任者 最高研究責任者)
-
井尻善久(SB Intuitions株式会社 取締役兼CRO)
-
村上真奈(エヌビディア合同会社 Solution Architecture and Engineering Solution Architect Manager)
-
大谷 真也(株式会社ABEJA データサイエンス部 部長)
-
相澤彰子(大学共同利用機関法人 情報・システム研究機構 国立情報学研究所 コンテンツ科学研究系/大規模言語モデル研究開発センター 教授)