Convex Polytope Attack

開発工程	攻撃分類	攻撃手法	防御手法
学習データの収集/作成 (Data Preparation)	データ汚染	Convex Polytope Attack Feature Collision Attack Bullseye Polytope Attack	トリガーの検知汚染データの検知 Neural Cleanse
モデルの学習/作成 (Model Fitting)	モデル汚染	機械学習フレームワークの悪用	信頼できる事前学習モデルの利用信頼できるAI開発会社の利用サンドボックス環境の利用必要最低限の権限によるAIの稼働最新バージョンの機械学習フレームワークの利用
モデルの学習/作成 (Model Fitting)	モデル汚染	BadNets	信頼できる事前学習モデルの利用信頼できるMLaaSの利用モデルの改ざん検知ノード剪定
モデルの設置 (Deployment)	敵対的サンプル	Fast Gradient Sign Method	敵対的学習データ拡張ネットワークの蒸留アンサンブルメソッド特徴量の絞り込み AIによる検出
	敵対的サンプル	Adversarial Patches	敵対的学習データ拡張ネットワークの蒸留アンサンブルメソッド特徴量の絞り込み AIによる検出
	データ窃取	Membership Inference Attacks	過学習の抑制差分プライバシーラベルのみ応答信頼スコアのマスキング
	データ窃取	Model Inversion Attacks	勾配情報のマスキング信頼スコアのマスキングモデルのアクセス制御
	モデル窃取	Copycat CNN	モデルのアクセス制御学習データのアクセス制御窃取モデルの検知

Convex Polytope Attack

AIにバックドアを設置する手法。攻撃者は細工した汚染データを学習データに注入し、これをAIに学習させることで、特定の入力データを攻撃者が意図したクラスに誤分類させることができます。汚染データは見た目に違和感がないため、AI開発者が学習データ作成時にデータの異常を検知することは困難です。

Convex Polytope Attackは、学習データの収集/作成工程を狙った「データ汚染攻撃」の１手法です。
2019年に論文「Transferable Clean-Label Poisoning Attacks on Deep Neural Nets」で提案されました。Feature Collision Attackなどの従来のデータ汚染攻撃手法との大きな違いは、攻撃のステルス性が高く攻撃検知が難しいこと、また、攻撃者が攻撃対象となるAIの内部構造を把握せずとも攻撃できることにあります。

以下の図は、Convex Polytope Attackによって攻撃対象となるAIの決定境界が歪められた様子を表しています。青丸が汚染データの基になるベース画像（船画像）、赤丸がベース画像に摂動を加えて作成した汚染データ、そして、緑丸がトリガー（蛙の画像）を表しています。また、灰色の点線が本来あるべき決定境界、赤色の線が汚染データを学習することで歪められた決定境界を表しています。

図の通り、複数の汚染データでトリガーを取り囲むことで、トリガー（蛙画像）を船クラスに引きずり込むように決定境界が歪められていることが分かります。このため、攻撃を受けたAIにトリガーが入力されると、見た目は蛙にもかかわらず、船クラスに分類されてしまうことになります。

Convex Polytope Attackは、トリガーを複数の汚染データで取り囲むことができれば攻撃が成功するため、大量の摂動を加えて汚染データの特徴量をトリガーに近似させる必要がありません。それゆえに、汚染データの見た目に違和感が生じにくく、攻撃検知が困難となります。また、特徴量の近似が不要なことから、攻撃者は攻撃対象AIの内部構造を把握する必要がなく、ブラックボックスで攻撃することが可能となります。

より詳細な内容を知りたい方は、解説ブログをご参照ください。

情報公開日: 2019/5/15

情報種別: 論文

タイトル: Transferable Clean-Label Poisoning Attacks on Deep Neural Nets

著者: Chen Zhu, W. Ronny Huang, Ali Shafahi, Hengduo Li, Gavin Taylor, Christoph Studer, Tom Goldstein

情報ソース: https://arxiv.org/abs/1905.05897

分類: データ汚染攻撃

関連する開発工程: 学習データの収集/作成（Data Preparation）

防御手法

信頼できる学習データの利用
トリガーの検知（STRONG Intentional Perturbation）
汚染データの検知（Activation Clustering）
誤分類を引き起こすノードの無効化（Neural Cleanse）

AIセキュリティ・マトリックス