用語集

AIセキュリティ特有の用語を解説します。
Adversarial examples
敵対的サンプル
AIが誤分類を引き起こすように細工された入力データ。攻撃者がAIへの入力データに摂動を加えることで作成される。
Adversarial example transferability
敵対的サンプルの転移性
「ある学習データを学習したモデルの敵対的サンプルは、異なるデータで学習したモデルにも有効である」、「あるモデルの敵対的サンプルは、異なるアーキテクチャのモデルにも有効である」という敵対的サンプルの特性。
Adversarial Patches
敵対的パッチ
物体検知AIによる検知を回避するために細工された特殊なパッチ柄。例えば、Tシャツなどのファッションアイテムに特殊なパッチ柄を貼り付けることで、監視カメラにおける人物検知を回避することができる。Adversarial Examplesの一種。
Adversarial perturbation
敵対的摂動, 摂動
敵対的サンプルを作成するために、AIの入力データに加えられる微小なノイズ。
Adversarial training
敵対的学習
学習データに敵対的サンプルを加えることで、敵対的サンプルに対する頑健性を高める防御手法。
Black-box attack
ブラックボックス攻撃
攻撃者が標的AIに関する知識を有しないことを前提とした攻撃。 Zeroknowledge attackとも呼ばれる。
CIFAR-10
32×32ピクセルのカラー画像が60,000枚収録されたデータセットであり、airplaneやtruck、catやfrogなど、乗り物や動物のラベルが10種類用意されている。
Clustering
クラスタリング
教師なし学習の1種。様々な属性を持つデータが混ざり合ったデータ群から、データ間の類似度が高いデータをグループ分けする技術。グループ分けされたデータ群をクラスタと呼ぶ。
CNN (Convolutional Neural Network)
畳み込みニューラルネットワーク
CNNはニューラルネットワークにConvolution(畳み込み)を追加したネットワーク。入力画像の変化に対して高い頑健性を持ち、入力画像を高精度に分類することができる。
Copycat CNN
モデル窃取の一手法。攻撃者は標的AIに複数の正常なデータを入力し、これらに対する標的AIの分類結果(ラベル)と入力データを紐づけて模倣データセットを作成する。そして、攻撃者の手元にある独自AIを模倣データセットで学習し、標的AIと同等の性能を達成できるようにする。
Data Augmented
データ拡張
学習データの量を増やす手法。オリジナルのデータに僅かな変更(ノイズ注入、平行移動、回転など)を加えたコピーを追加することで、多様性を持たせたデータを増やすことができる。このようなデータは正則化として機能し、AIの過学習を抑えるのに役立つ。
Data poisoning attack
データ汚染攻撃
学習データに細工したデータ(汚染データ)を注入し、これを学習させることでAIの決定境界を歪める攻撃手法。AIの決定境界を歪めることで、入力データを何らかのクラスに誤分類させるだけでなく、攻撃者しか知り得ない特定の入力データ(トリガー)を攻撃者の意図したクラスに誤分類させることもできる。文献によってはバックドア攻撃と呼ばれることもある。
Defensive distillation
防御のための蒸留
敵対的サンプルに対して頑健性の高いAIを作成するための防御手法。 AIに蒸留(Distillation)を施すことで、入力データに含まれる摂動に対する感度を下げることができ、敵対的サンプルに対して頑健になる。勾配マスキングの一種。
Differential privacy
差分プライバシー
AIの応答結果から機密情報が識別されないように大規模データセットを学習する手法。
Ensemble method
アンサンブル・メソッド
複数のアーキテクチャの異なるAIを使用し、回避攻撃に対する頑健性を高める防御手法。Ensemble learning(アンサンブル学習)とも呼ばれる。
Error-generic evasion attack
非標的型回避攻撃
敵対的サンプルを「任意のクラス」に誤分類させることを目的とした攻撃手法(クラスに関係なく誤分類させれば攻撃成功と見なす)。
Error-generic poisoning attack
非標的型汚染攻撃
クラスに関係なく、多くの誤分類を誘発させるように学習データやモデルを汚染する攻撃手法。サービス拒否を引き起こすことを目的とする。
Error-specific evasion attack
標的型回避攻撃
敵対的サンプルを「特定のクラス」に誤分類させることを目的とした攻撃手法。
Error-specific poisoning attack
標的型汚染攻撃
特定のクラスに誤分類させるように学習データやモデルを汚染する攻撃手法。
Evasion attack
回避攻撃
敵対的サンプルを用いて標的AIに誤分類を引き起こさせる攻撃手法。
Feature Squeezing
特徴量の絞り込み
AIへの入力データのカラービット深度を減らしたり、画像の平滑化を行うことで、敵対的サンプルを無効化する防御手法。
Fast Gradient Sign Method (FGSM)
敵対的サンプルを作成する手法。損失関数の勾配を利用して効率よく摂動を計算することができる。
Gray-box attack
グレーボックス攻撃
攻撃者が標的AIに関する知識を部分的に有していることを前提とした攻撃(学習データの種類のみを知っている、など)。 Limited knowledge attackとも呼ばれる。
Membership Inference Attacks
メンバーシップ推論攻撃
標的AIの学習データを窃取する手法。攻撃者は標的AIに正常なデータを入力し、これに対するAIの応答(分類結果=ラベル、信頼スコア)を分析することで、入力したデータがAIの学習データに含まれているか(≒近似しているか)推論する。
Model extraction attack
モデル窃取
標的AIの決定境界などを窃取する手法。標的AIの応答(分類結果、信頼スコア)を探索的に分析することで、AIのアーキテクチャやパラメータを推論する。
Model inversion attack
モデル反転攻撃
標的AIの学習データを窃取する手法。標的AIの応答(分類結果、信頼スコア)や勾配を分析することで、AIの学習データを復元する攻撃手法。
MLaaS (Machine Learning as a Service)
クラウドコンピューティング・サービスとして機械学習を提供するサービス。大規模なモデル・データセットを学習するためには多くのCPUやGPUリソースが必要になるため、多くの個人や企業は自前で学習を行うことは困難である。そこで、サードパーティーが提供する高火力のクラウドコンピューティング・サービスを利用することで、大規模モデルの学習を行うことができる。
MNIST
手書き数字画像のデータセット。0~9までの手書き数字画像(28x28ピクセル)が70,000枚収録されているフリーのデータセットであり、その手軽さゆえに分類器のテストや敵対的サンプルの検証などに広く利用されている。
Model poisoning attack
モデル汚染
事前学習モデル(学習済みモデル)に細工したノードを注入することで、AIにバックドアを設置する攻撃手法。
Pre-trained Models
事前学習モデル
大規模データセットを用いて学習された学習済みモデル。
Shadow model, Substitute model
シャドウモデル, 代替モデル
ブラックボックス攻撃を行うために使用される標的AIを模倣したモデル。攻撃者はAIの学習データ分布をある程度推測し、決定境界が標的AIにある程度近似したモデル(=シャドウモデル)を手元に作成することで、ブラックボックス攻撃を行うことができる。
Training data extraction attack
データ窃取
標的AIの応答(分類結果=ラベル、信頼スコア)を分析することで、AIの学習データを推論する攻撃手法。
White-box attack
ホワイトボックス攻撃
攻撃者が標的AIに関する知識を完全に有していることを前提とした攻撃。 Perfect knowledge attackとも呼ばれる。