詳細解説

AIに対する攻撃手法と防御手法を解説します。

AIセキュリティ・マトリックス

開発工程 攻撃分類 攻撃手法 防御手法
学習データの収集/作成
(Data Preparation)
データ汚染
モデルの学習/作成
(Model Fitting)
モデル汚染
  • 信頼できる事前学習モデルの利用
  • 信頼できるAI開発会社の利用
  • サンドボックス環境の利用
  • 必要最低限の権限によるAIの稼働
  • 最新バージョンの機械学習フレームワークの利用
モデルの設置
(Deployment)
敵対的サンプル
  • 敵対的学習
  • データ拡張
  • ネットワークの蒸留
  • アンサンブルメソッド
  • 特徴量の絞り込み
  • AIによる検出
データ窃取 T.B.A T.B.A
モデル窃取 T.B.A T.B.A

防御手法

STRONG Intentional Perturbation (STRIP)

データ汚染攻撃の防御手法。複数の画像を重ねるなどして意図的に摂動を加えたデータをAIに入力し、この入力データが分類されるクラスのバラつきを観測することで入力データがトリガーか否か検知します。

詳細はこちら

敵対的学習 (Adversarial Training)

敵対的サンプルの防御手法。AIの学習時に、通常の学習データに敵対的サンプルを加え、敵対的サンプルの特徴を学習することで、敵対的サンプルによる誤分類を抑制します。

詳細はこちら