AIセキュリティ・マトリックス

開発工程 攻撃分類 攻撃手法 防御手法
学習データの収集/作成
(Data Preparation)
データ汚染
モデルの学習/作成
(Model Fitting)
モデル汚染
  • 信頼できる事前学習モデルの利用
  • 信頼できるAI開発会社の利用
  • サンドボックス環境の利用
  • 必要最低限の権限によるAIの稼働
  • 最新バージョンの機械学習フレームワークの利用
モデルの設置
(Deployment)
敵対的サンプル
  • 敵対的学習
  • データ拡張
  • ネットワークの蒸留
  • アンサンブルメソッド
  • 特徴量の絞り込み
  • AIによる検出
データ窃取
  • 過学習の抑制
  • 差分プライバシー
  • ラベルのみ応答
  • 信頼スコアのマスキング
モデル窃取
  • モデルのアクセス制御
  • 学習データのアクセス制御
  • 窃取モデルの検知

Convex Polytope Attack

AIにバックドアを設置する手法。攻撃者は細工した汚染データを学習データに注入し、これをAIに学習させることで、特定の入力データを攻撃者が意図したクラスに誤分類させることができます。汚染データは見た目に違和感がないため、AI開発者が学習データ作成時にデータの異常を検知することは困難です。

Convex Polytope Attackは、学習データの収集/作成工程を狙った「データ汚染攻撃」の1手法です。
2019年に論文「Transferable Clean-Label Poisoning Attacks on Deep Neural Nets」で提案されました。Feature Collision Attackなどの従来のデータ汚染攻撃手法との大きな違いは、攻撃のステルス性が高く攻撃検知が難しいこと、また、攻撃者が攻撃対象となるAIの内部構造を把握せずとも攻撃できることにあります。

以下の図は、Convex Polytope Attackによって攻撃対象となるAIの決定境界が歪められた様子を表しています。青丸が汚染データの基になるベース画像(船画像)、赤丸がベース画像に摂動を加えて作成した汚染データ、そして、緑丸がトリガー(蛙の画像)を表しています。また、灰色の点線が本来あるべき決定境界、赤色の線が汚染データを学習することで歪められた決定境界を表しています。

図の通り、複数の汚染データでトリガーを取り囲むことで、トリガー(蛙画像)を船クラスに引きずり込むように決定境界が歪められていることが分かります。このため、攻撃を受けたAIにトリガーが入力されると、見た目は蛙にもかかわらず、船クラスに分類されてしまうことになります。

Convex Polytope Attackは、トリガーを複数の汚染データで取り囲むことができれば攻撃が成功するため、大量の摂動を加えて汚染データの特徴量をトリガーに近似させる必要がありません。それゆえに、汚染データの見た目に違和感が生じにくく、攻撃検知が困難となります。また、特徴量の近似が不要なことから、攻撃者は攻撃対象AIの内部構造を把握する必要がなく、ブラックボックスで攻撃することが可能となります。

より詳細な内容を知りたい方は、解説ブログをご参照ください。

情報公開日
2019/5/15
情報種別
論文
タイトル
Transferable Clean-Label Poisoning Attacks on Deep Neural Nets
著者
Chen Zhu, W. Ronny Huang, Ali Shafahi, Hengduo Li, Gavin Taylor, Christoph Studer, Tom Goldstein
情報ソース
https://arxiv.org/abs/1905.05897
分類
データ汚染攻撃
関連する開発工程
学習データの収集/作成(Data Preparation)
防御手法