2C-01
トークン予測確率を利用した人材領域におけるLLMの日本語タスク遂行能力評価
○佐藤 哲(パーソルキャリア)
近年,日本語文章を理解することができる多くの大規模言語モデル(以下,LLM)が提案されており,ユーザは目的に応じてLLMを評価し選択することが求められている.あるLLMが現場のタスク遂行に適するかどうかを評価する方法の一つとして,現場のデータをLLMに入力し,LLMの出力からPerplexity値を計算することが考えられるが,Perplexity値は平均などの操作が含まれており情報が欠落することが知られている.そこで本発表では,人材領域における現場タスクに用いられるデータをLLMに入力し,その出力結果であるトークン予測確率を情報理論の観点で評価することで,現場の日本語タスクに対するLLMの遂行能力を推定する実験を紹介する.