敵対的学習

開発工程	攻撃分類	攻撃手法	防御手法
学習データの収集/作成 (Data Preparation)	データ汚染	Convex Polytope Attack Feature Collision Attack Bullseye Polytope Attack	トリガーの検知汚染データの検知 Neural Cleanse
モデルの学習/作成 (Model Fitting)	モデル汚染	機械学習フレームワークの悪用	信頼できる事前学習モデルの利用信頼できるAI開発会社の利用サンドボックス環境の利用必要最低限の権限によるAIの稼働最新バージョンの機械学習フレームワークの利用
モデルの学習/作成 (Model Fitting)	モデル汚染	BadNets	信頼できる事前学習モデルの利用信頼できるMLaaSの利用モデルの改ざん検知ノード剪定
モデルの設置 (Deployment)	敵対的サンプル	Fast Gradient Sign Method	敵対的学習データ拡張ネットワークの蒸留アンサンブルメソッド特徴量の絞り込み AIによる検出
	敵対的サンプル	Adversarial Patches	敵対的学習データ拡張ネットワークの蒸留アンサンブルメソッド特徴量の絞り込み AIによる検出
	データ窃取	Membership Inference Attacks	過学習の抑制差分プライバシーラベルのみ応答信頼スコアのマスキング
	データ窃取	Model Inversion Attacks	勾配情報のマスキング信頼スコアのマスキングモデルのアクセス制御
	モデル窃取	Copycat CNN	モデルのアクセス制御学習データのアクセス制御窃取モデルの検知

敵対的学習 (Adversarial Training)

敵対的サンプルの防御手法。AIの学習時に、通常の学習データに敵対的サンプルを加え、敵対的サンプルの特徴を学習することで、敵対的サンプルによる誤分類を抑制します。

敵対的学習は、敵対的サンプルに対する防御の１手法です。2014年に論文「Explaining and Harnessing Adversarial Examples」で提案されました。

本手法は、正常データと敵対的サンプルの特徴をAIに学習させる防御手法です。AIの学習時において、正常データと敵対的サンプルに対する誤差（Loss）をそれぞれ計算し、これを足し合わせた値を基にAIの重み「w」を更新することで、敵対的サンプルの特徴を学習します。

以下は、敵対的学習の流れです。

敵対的サンプルの特徴を学習するイメージ

1. 学習中のAIを利用して敵対的サンプルを作成する。
2. AIに正常データ「x」と敵対的サンプル「x^~」を入力し、それぞれの誤差「Loss」を得る。
3. それぞれ得た誤差「Loss(x, y)」と「Loss(x^~, y)」に重み係数「α」を付けて足し合わせる。
4. 足し合わせた誤差「Loss」が最小になるように、重み「w」の値を更新する。

このように、AIの学習時に敵対的サンプルの特徴量を学習することで、敵対的サンプルによる誤分類を抑制します。

なお、敵対的学習は、通常のデータに加えて「敵対的サンプルを作成 -> 学習」する必要があるため、非常に多くの学習時間を要します。また、余計なデータを学習するためAIの精度が落ちることもあります。このため、精度を保ちつつ学習時間を短縮する様々な改善手法が提案されています。これらの手法は別項で紹介したいと思います。

より詳細な内容を知りたい方は、解説ブログをご参照ください。

AIセキュリティ・マトリックス

防御手法