情報処理学会第85回全国大会

深層ニューラルネットワークには，入力に対して人間に知覚できない特殊な摂動が加えられた敵対的サンプル（Adversarial Examples: AE）を誤認識してしまう脆弱性が存在する．この脆弱性は認識結果の信頼性が重要なタスクにおいて深刻な問題であり，AEに対する防御手法が研究されている．防御手法には入力データからAEを検出する検出手法が提案されているが，一方でこれらの手法はAEの検知に留まっており，自動運転における標識認識などのタスクにおいて，AEの原画像における正しいラベルを認識することが求められている．このため本研究では，検出されたAEに対して再度攻撃を加えることで，原画像の正しいラベルを推定する手法を提案する．