詳細解説

AIに対する攻撃手法と防御手法を解説します。

AIセキュリティ・マトリックス

開発工程 攻撃分類 攻撃手法 防御手法
学習データの収集/作成
(Data Preparation)
データ汚染
モデルの学習/作成
(Model Fitting)
モデル汚染
  • 信頼できる事前学習モデルの利用
  • 信頼できるAI開発会社の利用
  • サンドボックス環境の利用
  • 必要最低限の権限によるAIの稼働
  • 最新バージョンの機械学習フレームワークの利用
モデルの設置
(Deployment)
敵対的サンプル
  • 敵対的学習
  • データ拡張
  • ネットワークの蒸留
  • アンサンブルメソッド
  • 特徴量の絞り込み
  • AIによる検出
データ窃取 T.B.A T.B.A
モデル窃取 T.B.A T.B.A

攻撃分類

データ汚染

学習データの収集/作成工程を狙った攻撃です。
攻撃を受けた場合、入力データの誤分類が引き起こされます。

データ汚染攻撃とは、汚染データと呼ばれる摂動を加えたデータを学習データに注入し、これを攻撃対象のAIに学習させることで、トリガーと呼ばれる攻撃者しか知り得ない特定の入力データを攻撃者が意図したクラスに誤分類させることができます。文献によってはバックドア攻撃とも呼ばれます。

代表的な攻撃手法 代表的な防御手法

モデル汚染

モデルの学習/作成工程を狙った攻撃です。
攻撃を受けた場合、入力データの誤分類やAIが稼働するシステムの破壊などが引き起こされます。

モデル汚染攻撃とは、攻撃者が細工したノードが注入された事前学習モデル(学習済みモデルとも呼ばれる)を作成し、これを被害者に配布して使用させることで、トリガーと呼ばれる攻撃者しか知り得ない特定の入力データを攻撃者が意図したクラスに誤分類させることができます。文献によってはバックドア攻撃とも呼ばれます。また、悪意のあるコード(Pythonコードやシステムコマンド)を実行するレイヤー(層)を事前学習モデルに注入する攻撃手法も存在し、この場合はAIが稼働するシステム上で悪意のあるコードが実行されることで、システムの破壊や情報漏えい、システムへの侵入などが引き起こされます。

代表的な攻撃手法 代表的な防御手法
  • 信頼できる事前学習モデルの利用
  • 信頼できるAI開発会社の利用
  • サンドボックス環境の利用
  • 必要最低限の権限によるAIの稼働
  • 最新バージョンの機械学習フレームワークの利用

敵対的サンプル

モデルの設置工程を狙った攻撃です。
攻撃を受けた場合、入力データの誤分類が引き起こされます。

敵対的サンプルとは、入力データ(主に画像)に「摂動」と呼ばれる微小のノイズを加えることで、入力データの特徴量を変化させたデータを指します。攻撃者は敵対的サンプルをAIに入力することで、これを攻撃者が意図したクラスに誤分類させることができます。なお、敵対的サンプルに加えられる摂動は微小であるため、人間の目で異常を検知することは困難です。文献によっては回避攻撃とも呼ばれます。

代表的な攻撃手法 代表的な防御手法
  • 敵対的学習
  • データ拡張
  • ネットワークの蒸留
  • アンサンブルメソッド
  • 特徴量の絞り込み
  • AIによる検出

データ窃取

モデルの設置工程を狙った攻撃です。
攻撃を受けた場合、情報漏えいが引き起こされます。また、敵対的サンプルなどの攻撃の足掛かりとして利用されます。

データ窃取とは、攻撃対象となるAIに複数のデータを入力し、AIの分類結果や信頼スコア(分類の確度を示す確率値)を観察することで、AIの学習データを推論することができます。AIの学習データに機微情報が含まれていた場合、情報漏えいが引き起こされます。文献によってはメンバーシップ推論攻撃とも呼ばれます。

代表的な攻撃手法 代表的な防御手法
T.B.A T.B.A

モデル窃取

モデルの設置工程を狙った攻撃です。
攻撃を受けた場合、モデルの窃取が引き起こされます。また、敵対的サンプルなどの攻撃の足掛かりとして利用されます。

モデル窃取とは、攻撃対象となるAIに複数のデータを入力し、AIの分類結果や信頼スコア(分類の確度を示す確率値)を観察することで、AIの内部情報(決定境界やパラメータなど)を推論することができます。商用サービスとして公開されているAIのモデルが窃取された場合、模倣サービスが展開されることでビジネスモデルが崩壊する可能性があります。

代表的な攻撃手法 代表的な防御手法
T.B.A T.B.A