用語集

AIセキュリティ特有の用語を解説します。
データ汚染攻撃
学習データに細工したデータ(汚染データ)を注入し、これを学習させることでAIの決定境界を歪める攻撃手法。AIの決定境界を歪めることで、入力データを何らかのクラスに誤分類させるだけでなく、攻撃者しか知り得ない特定の入力データ(トリガー)を攻撃者の意図したクラスに誤分類させることもできる。文献によってはバックドア攻撃と呼ばれることもある。
標的型汚染攻撃
標的型の汚染攻撃。特定のクラスに誤分類させるように学習データやモデルを汚染する攻撃手法。
非標的型汚染攻撃
非標的型の汚染攻撃。 可能な限り多くの誤分類を誘発させるように学習データやモデルを汚染し、サービス拒否を引き起こすことを目的とした攻撃手法(クラスに関係なく、多くの誤分類を発生させれば良い)。
モデル汚染
事前学習モデル(学習済みモデル)に細工したノードを注入することで、AIにバックドアを設置する攻撃手法。
敵対的サンプル
AIが誤分類を引き起こすように細工された入力データ。攻撃者がAIへの入力データに摂動を加えることで作成される。
敵対的サンプルの転移性
「ある学習データを学習したモデルの敵対的サンプルは、異なるデータで学習したモデルにも有効である。」、「あるモデルの敵対的サンプルは、異なるアーキテクチャのモデルにも有効である。」という敵対的サンプルの特性。
回避攻撃
敵対的サンプルを用いて標的AIに誤分類を引き起こさせる攻撃手法。
標的型回避攻撃
標的型の回避攻撃。 敵対的サンプルを特定のクラスに誤分類させることを目的とした攻撃手法。
非標的型回避攻撃
非標的型の回避攻撃。 敵対的サンプルを任意のクラスに誤分類させることを目的とした攻撃手法(クラスに関係なく、誤分類させれば良い)。
敵対的学習
学習データに敵対的サンプルを加えることで、敵対的サンプルに対する頑健性を高める防御手法。
データ窃取
攻撃対象となるAIの分類結果や信頼スコアを観察することで、AIが学習したデータを推論する攻撃手法。
モデル窃取
攻撃対象となるAIの分類結果を観察することで、AIのアーキテクチャやパラメータを窃取することを目的とした探索的な攻撃手法。
ブラックボックス攻撃
攻撃者が標的AIに関する知識を有しないことを前提とした攻撃。 Zeroknowledge attackとも呼ばれる。
ホワイトボックス攻撃
攻撃者が標的AIに関する知識を有していることを前提とした攻撃。 Perfect knowledge attackとも呼ばれる。
防御のための蒸留
敵対的サンプルに対して頑健性の高いAIを作成するための防御手法。 AIに蒸留(Distillation)を施すことで、入力データに含まれる摂動に対する感度を下げることができ、敵対的サンプルに対して頑健になる。勾配マスキングの一種。
アンサンブル・メソッド
複数のアーキテクチャの異なるAIを使用し、回避攻撃に対する頑健性を高める防御手法。