7ZB-02
大規模言語モデルの記号的類推に対する評価システムの構築
○潘 天賜,後藤祐一(埼玉大)
大規模言語モデル(LLM) の発展にともない、LLMのさまざまな性能について評価する方法が研究されている。評価対象となるLLM の性能の一つに記号的類推能力がある。Lewis らは、文字列の類推問題のデータセットを構築し、複数のLLM および人間の記号的類推能力の測定を行った。しかし、Lewis らが研究に用いた評価セット(評価基準、メトリクス、データセット)には不十分な点があった。本研究ではLewis らの評価システムを改善し、より良いLLM の記号的類推能力に対する評価システムの構築を行った。また、Lewisらの評価システムと提案システムの比較を行い、その有用性を示した。