情報処理学会第88回全国大会

大規模言語モデル(LLM) の発展にともない、LLMのさまざまな性能について評価する方法が研究されている。評価対象となるLLM の性能の一つに記号的類推能力がある。Lewis らは、文字列の類推問題のデータセットを構築し、複数のLLM および人間の記号的類推能力の測定を行った。しかし、Lewis らが研究に用いた評価セット（評価基準、メトリクス、データセット）には不十分な点があった。本研究ではLewis らの評価システムを改善し、より良いLLM の記号的類推能力に対する評価システムの構築を行った。また、Lewisらの評価システムと提案システムの比較を行い、その有用性を示した。