2D-06
日本語LLM学習用合成データセットの質的最適化に向けた評価指標の提案
○澤崎夏希,遠藤聡志(琉球大)
現在,LLMの利用によって多くの問題が解決されており,日本語のデータセットを学習した日本語LLMの開発も進められている.学習には多くの言語資産が必要になるため,合成データでの学習が広く利用されているが,合成データの品質評価指標は提案されていない.これまでの合成データセット作成は量を基準とする生成が行われていたが,LLM学習において低品質データセットが学習に悪影響を与えうることが知られており,より高品質なデータセットで学習を行う質的最適化が必要となる.本研究では質的最適化のためのデータセット評価指標を提案し,8軸の機械的な評価軸とLLMによる評価を行うことで横断的な評価を行う指標を示する.