情報処理学会第88回全国大会

近年，大規模言語モデルが普及する一方で，一度作成した敵対的サフィックスが別モデルにも転移するGCG攻撃が深刻な脅威となっている．そこで本研究では、GCG攻撃の転移が何に起因するかを明らかにするため，LLM内部のアテンション構造との関係を解析した．複数のオープンソースLLMにチャットテンプレート込みプロンプトを入力し，末尾トークンのアテンション重みに基づいたk-NNグラフからモデル間アテンション類似度を定義し，ソースモデルで最適化したサフィックスの転移率との相関を評価した．その結果，全層の約40％に相当する層のアテンション類似度が転移率と中程度の正の相関を示すことを確認した．