AIセキュリティ・マトリックス

開発工程 攻撃分類 攻撃手法 防御手法
学習データの収集/作成
(Data Preparation)
データ汚染
モデルの学習/作成
(Model Fitting)
モデル汚染
  • 信頼できる事前学習モデルの利用
  • 信頼できるAI開発会社の利用
  • サンドボックス環境の利用
  • 必要最低限の権限によるAIの稼働
  • 最新バージョンの機械学習フレームワークの利用
モデルの設置
(Deployment)
敵対的サンプル
  • 敵対的学習
  • データ拡張
  • ネットワークの蒸留
  • アンサンブルメソッド
  • 特徴量の絞り込み
  • AIによる検出
データ窃取
  • 過学習の抑制
  • 差分プライバシー
  • ラベルのみ応答
  • 信頼スコアのマスキング
モデル窃取
  • モデルのアクセス制御
  • 学習データのアクセス制御
  • 窃取モデルの検知

防御手法

STRONG Intentional Perturbation (STRIP)

データ汚染攻撃の防御手法。複数の画像を重ねるなどして意図的に摂動を加えたデータをAIに入力し、この入力データが分類されるクラスのバラつきを観測することで入力データがトリガーか否か検知します。

STRIPは、データ汚染攻撃に対する防御の1手法です。2019年に論文「STRIP: A Defence Against Trojan Attacks on Deep Neural Networks」で提案されました。本手法は、複数の画像を重ねるなどしてAIの入力データに摂動を加え、この入力データが分類されるクラスを観測することでトリガーを検知します。

正常な入力画像の場合は、摂動の影響により様々なクラスに分類されますが、入力画像がトリガーの場合は、AIがバックドアに強く反応し、摂動をもろともせず(攻撃者が意図した)ある一定のクラスに分類されます。このように、トリガーの有無によって分類クラスが偏る事象を観測することで、入力画像がトリガーか否かを判定します。

より詳細な内容を知りたい方は、解説ブログをご参照ください。

情報公開日
2019/2/18
情報種別
論文
タイトル
STRIP: A Defence Against Trojan Attacks on Deep Neural Networks
著者
Yansong Gao, Chang Xu, Derui Wang, Shiping Chen, Damith C.Ranasinghe, Surya Nepal
情報ソース
https://arxiv.org/abs/1902.06531
分類
データ汚染攻撃
関連する開発工程
学習データの収集/作成(Data Preparation)