情報処理学会第88回全国大会

本研究は，画像入力に対する脳表現とAI内部表現の不一致を用いた敵対的攻撃検知手法の可能性を検討する。人間の脳は微小ノイズに対して頑健である一方，AIは敵対的摂動に脆弱であるという差異に着目し，画像入力時に得られるAI内部特徴と，fMRIデータに基づく予測脳表現ベクトルの類似度を比較することで，攻撃検知指標としての有効性を評価する。複数条件下での類似度変化と検知性能の関係について基礎的な検討を行う。