情報処理学会 第88回全国大会

6ZD-09
オープンソースLLMに対するアラインメント逆行攻撃の実証的検証と日本語安全監視モデルの構築
○幸 航輝,鄭 萬溶(沼津高専)
本研究は、安全対策が施されたオープンソースLLMに対し、DPO/PPOなどの強化学習を逆用することで意図的な有害化がどの程度容易に行えるかを体系的に検証する。有害質問・倫理的応答・有害応答からなる選好データセットと報酬モデルを構築し、10〜30B級モデルを有害方向にファインチューニングした上で、応答拒否率ベンチマークを用いて脆弱性と必要計算コストを定量評価する。さらに、日本語出力の有害性を判定・スコアリングする安全監視モデルを作成し、オープンソースLLMの潜在的リスクと防御策の一端を示すことを目的とする。