4U-03
人間がフリーハンドで再現可能な敵対的攻撃
○奈良亮耶,松井勇佑(東大)
敵対的攻撃の多くは解釈可能性に着目しておらず、画像分類器のメカニズムに関する洞察を得ることはできない.そこで私達は,解釈可能な形状を持ち,人間がフリーハンドで再現できる攻撃である「敵対的落書き」を提案する.私達は黒いベジエ曲線を最適化し,入力画像に重ねることで画像分類器を欺く.最適化の際にランダムな画像変換と正則化項を加えることで,コンパクトかつフリーハンドのズレに頑健な攻撃を生成する.敵対的落書きは,攻撃の形状と分類器の出力の関係について,説明可能かつ興味深い洞察を与える.例えば,鳥の画像に,頭に2直線.胴体に三角形,三角形の内側に2直線を追加すると,分類機はその画像を蝶と誤分類してしまう.