情報処理学会第88回全国大会

インストラクションチューニング後のLLMの出力を人間にとってより好ましくなるように調整するために，選好学習（Preference Learning）が通常行われる．選好学習に用いられる選好学習用データセットには，より厳密なアノテーション基準と徹底した品質管理が求められるため，現状，データセットの作成・更新には多大な労力がかかる．そこで，本研究では，新たなラベル推定手法を考案することを目的として，その前段階として選好学習用データセットをCommon，Chosen，Rejectedの3つに分割し，3層に分けて可視化することで，その構造的な特徴を人の選好傾向との関係の分析を行う．