情報処理学会第87回全国大会

近年、大規模言語モデルは自然言語処理タスクに限らず、画像認識や音声認識にも応用されるモデル開発が加速している。しかし日本語の音声タスクにおいては依然、認識精度の低さなど多くの課題が残されている。本研究では、日本語の継続事前学習を行ったモデルを基に、日本語と英語のオープンソースデータを活用して音声言語モデルを構築した。本論文では、事前学習のプロセスを詳細に説明し、異なるデータセットや手法間の性能差を比較・分析する。