用語集

用語集

AIセキュリティ特有の用語を解説します。

Adversarial examples 敵対的サンプル: AIが誤分類を引き起こすように細工された入力データ。攻撃者がAIへの入力データに摂動を加えることで作成される。

Adversarial example transferability 敵対的サンプルの転移性: 「ある学習データを学習したモデルの敵対的サンプルは、異なるデータで学習したモデルにも有効である」、「あるモデルの敵対的サンプルは、異なるアーキテクチャのモデルにも有効である」という敵対的サンプルの特性。

Adversarial Patches 敵対的パッチ: 物体検知AIによる検知を回避するために細工された特殊なパッチ柄。例えば、Tシャツなどのファッションアイテムに特殊なパッチ柄を貼り付けることで、監視カメラにおける人物検知を回避することができる。Adversarial Examplesの一種。

Adversarial perturbation 敵対的摂動, 摂動: 敵対的サンプルを作成するために、AIの入力データに加えられる微小なノイズ。

Adversarial training 敵対的学習: 学習データに敵対的サンプルを加えることで、敵対的サンプルに対する頑健性を高める防御手法。

Black-box attack ブラックボックス攻撃: 攻撃者が標的AIに関する知識を有しないことを前提とした攻撃。 Zeroknowledge attackとも呼ばれる。

CIFAR-10: 32×32ピクセルのカラー画像が60,000枚収録されたデータセットであり、airplaneやtruck、catやfrogなど、乗り物や動物のラベルが10種類用意されている。

Clustering クラスタリング: 教師なし学習の１種。様々な属性を持つデータが混ざり合ったデータ群から、データ間の類似度が高いデータをグループ分けする技術。グループ分けされたデータ群をクラスタと呼ぶ。

CNN (Convolutional Neural Network) 畳み込みニューラルネットワーク: CNNはニューラルネットワークにConvolution（畳み込み）を追加したネットワーク。入力画像の変化に対して高い頑健性を持ち、入力画像を高精度に分類することができる。

Copycat CNN: モデル窃取の一手法。攻撃者は標的AIに複数の正常なデータを入力し、これらに対する標的AIの分類結果（ラベル）と入力データを紐づけて模倣データセットを作成する。そして、攻撃者の手元にある独自AIを模倣データセットで学習し、標的AIと同等の性能を達成できるようにする。

Data Augmented データ拡張: 学習データの量を増やす手法。オリジナルのデータに僅かな変更（ノイズ注入、平行移動、回転など）を加えたコピーを追加することで、多様性を持たせたデータを増やすことができる。このようなデータは正則化として機能し、AIの過学習を抑えるのに役立つ。

Data poisoning attack データ汚染攻撃: 学習データに細工したデータ（汚染データ）を注入し、これを学習させることでAIの決定境界を歪める攻撃手法。AIの決定境界を歪めることで、入力データを何らかのクラスに誤分類させるだけでなく、攻撃者しか知り得ない特定の入力データ（トリガー）を攻撃者の意図したクラスに誤分類させることもできる。文献によってはバックドア攻撃と呼ばれることもある。

Defensive distillation 防御のための蒸留: 敵対的サンプルに対して頑健性の高いAIを作成するための防御手法。 AIに蒸留（Distillation）を施すことで、入力データに含まれる摂動に対する感度を下げることができ、敵対的サンプルに対して頑健になる。勾配マスキングの一種。

Differential privacy 差分プライバシー: AIの応答結果から機密情報が識別されないように大規模データセットを学習する手法。

Ensemble method アンサンブル・メソッド: 複数のアーキテクチャの異なるAIを使用し、回避攻撃に対する頑健性を高める防御手法。Ensemble learning（アンサンブル学習）とも呼ばれる。

Error-generic evasion attack 非標的型回避攻撃: 敵対的サンプルを「任意のクラス」に誤分類させることを目的とした攻撃手法（クラスに関係なく誤分類させれば攻撃成功と見なす）。

Error-generic poisoning attack 非標的型汚染攻撃: クラスに関係なく、多くの誤分類を誘発させるように学習データやモデルを汚染する攻撃手法。サービス拒否を引き起こすことを目的とする。

Error-specific evasion attack 標的型回避攻撃: 敵対的サンプルを「特定のクラス」に誤分類させることを目的とした攻撃手法。

Error-specific poisoning attack 標的型汚染攻撃: 特定のクラスに誤分類させるように学習データやモデルを汚染する攻撃手法。

Evasion attack 回避攻撃: 敵対的サンプルを用いて標的AIに誤分類を引き起こさせる攻撃手法。

Feature Squeezing 特徴量の絞り込み: AIへの入力データのカラービット深度を減らしたり、画像の平滑化を行うことで、敵対的サンプルを無効化する防御手法。

Fast Gradient Sign Method (FGSM): 敵対的サンプルを作成する手法。損失関数の勾配を利用して効率よく摂動を計算することができる。

Gray-box attack グレーボックス攻撃: 攻撃者が標的AIに関する知識を部分的に有していることを前提とした攻撃（学習データの種類のみを知っている、など）。 Limited knowledge attackとも呼ばれる。

Membership Inference Attacks メンバーシップ推論攻撃: 標的AIの学習データを窃取する手法。攻撃者は標的AIに正常なデータを入力し、これに対するAIの応答（分類結果＝ラベル、信頼スコア）を分析することで、入力したデータがAIの学習データに含まれているか（≒近似しているか）推論する。

Model extraction attack モデル窃取: 標的AIの決定境界などを窃取する手法。標的AIの応答（分類結果、信頼スコア）を探索的に分析することで、AIのアーキテクチャやパラメータを推論する。

Model inversion attack モデル反転攻撃: 標的AIの学習データを窃取する手法。標的AIの応答（分類結果、信頼スコア）や勾配を分析することで、AIの学習データを復元する攻撃手法。

MLaaS (Machine Learning as a Service): クラウドコンピューティング・サービスとして機械学習を提供するサービス。大規模なモデル・データセットを学習するためには多くのCPUやGPUリソースが必要になるため、多くの個人や企業は自前で学習を行うことは困難である。そこで、サードパーティーが提供する高火力のクラウドコンピューティング・サービスを利用することで、大規模モデルの学習を行うことができる。

MNIST: 手書き数字画像のデータセット。0～9までの手書き数字画像（28x28ピクセル）が70,000枚収録されているフリーのデータセットであり、その手軽さゆえに分類器のテストや敵対的サンプルの検証などに広く利用されている。

Model poisoning attack モデル汚染: 事前学習モデル（学習済みモデル）に細工したノードを注入することで、AIにバックドアを設置する攻撃手法。

Pre-trained Models 事前学習モデル: 大規模データセットを用いて学習された学習済みモデル。

Shadow model, Substitute model シャドウモデル, 代替モデル: ブラックボックス攻撃を行うために使用される標的AIを模倣したモデル。攻撃者はAIの学習データ分布をある程度推測し、決定境界が標的AIにある程度近似したモデル（＝シャドウモデル）を手元に作成することで、ブラックボックス攻撃を行うことができる。

Training data extraction attack データ窃取: 標的AIの応答（分類結果＝ラベル、信頼スコア）を分析することで、AIの学習データを推論する攻撃手法。

White-box attack ホワイトボックス攻撃: 攻撃者が標的AIに関する知識を完全に有していることを前提とした攻撃。 Perfect knowledge attackとも呼ばれる。