Adversarial Robustness through Disentangled Representations

通过解耦表征实现对抗鲁棒性

摘要

​ 尽管深度学习模型具有优秀的实证性能,但诸多研究已发现了它们对对抗样本的脆弱性。它们易对具有难以察觉的对抗扰动的输入做出易受其影响的预测。尽管最近的研究已明显提升了在对抗训练策略下模型的鲁棒性,但自然准确性与对抗鲁棒性之间的差距依旧显著。为缓解此问题,本文中,我们假设鲁棒性与非鲁棒性表征是整体表征中相互耦合的两个基本成分。为实现对抗鲁棒性,自然与对抗样本的鲁棒表征应与非鲁棒部分分离,鲁棒表征的一致化可弥补准确性与鲁棒性之间的差距。受此启发,我们提出了一种称为深度鲁棒解耦表征网络(Deep Robust Representation Disentanglement Network, DRRDN)的新防御方法。具体而言,DRRDN使用解耦器从对抗样本与自然样本中提取并一致化鲁棒表征。理论分析保证了我们的方法能在具有良好解耦与一致化性能的情况下平衡鲁棒性与准确性。在基准数据集上的实验结果证明了我们方法的实证优势。

1. 介绍

​ 我们提出了一种新的防御方法,称为深度鲁棒解耦表征网络(DRRDN)。具体而言,DRRDN遵循自动编码器(Auto-Encoder, AE)框架,通过编码器提取隐藏表征,使用解码器恢复原始输入。与典型的AE不同,DRRDN独特地使用两个解耦器将隐藏表征解耦为两个分支,一个是为了提取类特定的表征以进行分类,另一个是提取与类型无关的表征,以确定此表征是来自自然域还是对抗域。为了获得更好的解耦性能,我们使用互信息最小化以进一步正则化解耦器。与传统的AE类似,为保证一致性,我们亦使用了一个重构器以恢复解耦之前的整体表征。在推理阶段,我们使用特定类的表征进行预测。因此,无论输入的样本来源于哪个域,用于分类而提取的表征都能对对抗攻击有始终与一的鲁棒性。此外,我们从理论上证明,在满足解耦和一致化性能的前提下,自然表征与对抗表征之间的分布差异较小,所以自然准确度和对抗准确度应更接近。最后,我们在MNIST和CIFAR10数据集上实证了DRRDN在各种对抗攻击下的有效性。本工作主要贡献如下:

  • 我们提出了一种新的对抗防御方法DRRDN,它通过解耦与一致化来源于自然与对抗样本的鲁棒表征来消除对抗扰动的影响。

  • 我们所提出的DRRDN是模型无关的,因此其可适用于任何模型架构。此外,DRRDN利用扰动的信息以实现完整的解耦能力。

  • 我们通过理论分析,证明了我们方法的自然准确度和对抗鲁棒性之间的差距更小。

  • 基准数据集的实验结果证明了DRRDN的优越性。

2. 方法

​ 我们提出的DRRDN方法是在对抗训练的框架下更新的。为简单起见,我们在训练阶段使用PGD方法来生成对抗样本。本节先对对抗训练与PGD攻击流程做简单回顾。

准备工作

​ 考虑一个深度神经网络f(·)=c(g(·; θ);w)∈Rk,其中g(·; θ)是以θ为参数的表征编码器,c(·;w)是以w为参数的分类器,k是分类的类型数量。对抗样本x’∈R HxWxC是由自然样本x∈R HxWxC通过添加对抗扰动δ生成的,而该扰动被限定在一个半径为ε的小球中,即:

​ 除此之外,x’应导致网络的预测发生改变。对抗训练的基本思想是交替地生成对抗样本与使用它们训练。总目标如下:

​ 然而,对于复杂的高维数据,内部最大化通常难以实现。因此,PGD使用以下T步投影来近似生成ε球内的最强对抗样本:

​ 其中,Proj Bεp (x)(·)表示投影操作,其将扰动样本投影至ε半径的球Bεp (x)中,以确保对抗样本的相似度。t∈[1,T],是投影步数的数量,α是单步幅度,sign(·)返回梯度中每个元素的符号。注意,如果总的更新步数T为1,则PGD方法就会退化为较弱的FGSM攻击。在通过公式(2)得到x’后,把它喂给模型,像公式(1)那样优化外部最小化,以加强模型鲁棒性。

深度鲁棒解耦表征网络(DRRDN)

​ DRRDN的基础理论假设整体表征z=g(x;θ)∼pθ(z)(相似的,z’=g(x’;θ)∼pθ(z’))由两个耦合的分支组成,分别为特定类表征zs与类型无关表征zi,其中pθ(z)是原始数据分布p(x)的前推度量。

​ 具体而言,纯zs被指定为分类任务,因此,无论是zs还是zs’,他们都应能被正确分类。在DRRDN中,我们使用一个解耦器ds(·; φs)来分离z和z’的特定类表征:

​ 回顾特定类表征的工作,我们将分类损失(如交叉熵)应用于ds(·; φs)上。

​ 其中,cs(·, ws) ∈ Rk是以ws为参数的特定类分类器。

​ 然而,仅分离特定类的表征可能并不足以实现完全解耦。捕获扰动噪声信息的类型无关的部分也应被建模,并从整体表征中去除。与ds类似,我们设计了一个类型无关解耦器di(·; φi)来建模类型无关的信息:

​ 请注意,类型无关的表征应捕捉自然表征与对抗表征的特点,即zi应是可与zi’解耦的。因此,我们在di上应用二元分类损失,为:

​ 其中ci(·,wi)∈[0,1]是以wi为参数的类型无关分类器,其试图将不管是特定类的,还是类型无关的自然表征与对抗表征都进行区分。

​ 一个好的解耦应产生相互独立的部分,这些部分不共享彼此之间的信息。为了实现这一目标,我们考虑以下两个方面:功能排他性与互信息最小化。首先,功能排他性是指被解耦的分支应有且仅有一项特定任务来胜任,而对其余任务无能为力。公式(4)与(6)已确保每个解耦的表征都能执行相应的任务,但并未对对应表征施加任何约束,这可能导致扰动信息的残留,或特定类表征中鲁棒信息的损失。因此,受生成对抗网络的启发,我们通过使用对抗损失来更新ds,以欺骗训练好的ci*:

​ 其中ci*(·,wi*)是公式6中训练好的类型无关的分类器。除此之外,我们正则化优化好的cs*对di的预测熵,使其尽可能大,以保证di不能被正确分类:

​ 其中,cs*(·,ws*)使用公式(4)优化,公式(8)被用来最小化cs*(·,ws*)对di的负信息熵。

​ 其次,对于完全解耦,ds与di的输出之间的依赖性应尽可能小。在我们的方法中,我们对ds与di进行了互信息最小化(MI)操作,以更好地解耦对抗扰动的影响。然而,MI的计算通常是难以实现的。因此,在我们的模型中,我们采用互信息神经估计器(Mutual Information Neural Estimator, MINE)来进行MI的无偏估计。具体而言,给定联合分布的特定类与类型无关表征对的n个样本,以及来源于边缘分布的的n对样本(请注意,被解耦的表征可能来源于自然或对抗表征),MINE通过蒙特卡洛积分经验地估计ds与di之间的MI,如下所示:

​ 其中,T(·; ψ)是以ψ为参数的神经网络。

​ 最后,遵循标准的AE架构,我们使用了一个重构器以恢复完整表征,以保持解耦表征的跨周期一致性。本文中,为简单起见,我们使用了一个L2重构器:

​ 其中,r(·,·; θrec)是以θrec为参数的重构器。

​ 请注意,在推理阶段与生成对抗样本时,我们仅使用基本的表征提取器g(·; φ),特定类解耦器ds(·; φ)与特定类分类器cs(·;ws)。为了更好的理解DRRDN的结构,我们在图1中给出了说明。我们还在算法1中总结了DRRDN的具体训练步骤。具体来说,DRRDN的总体目标可总结如下:

图1 DRRDN架构示意图。g(·;θ) 表示以θ为参数的特征提取器,ds(·; φs)和di(·; φi)分别是以φs和φi为参数的特定类和类型无关表征的解耦器,cs是预测输入表征类别的分类器,ci是区分表征来源于哪个域的鉴别器,r是重构解码器,z表示每个模块的输出表征。

3. 理论分析

​ 本节中,我们提供对所提方法的理论理解。Zhang等人(2019)指出,模型在自然样本和对对抗样本的鲁棒性之间存在一种权衡。我们假设这种权衡的一个可能原因是分类器不能泛化来自自然与对抗分布的表征。在公式(6)和(7)中,我们定义了一个对抗损失以正则化特定类的解耦器。在下面的命题中,我们证明,通过优化(6)和(7)中的目标,来自自然和对抗样本的特定类表征可以相互一致。因为我们只使用特定类表征进行推理,因此可以减少模型准确性与鲁棒性之间的差距。

命题1 当达到全局最小值时,pφs(zs)等于pφs (zs’)。

证明:根据Goodfellow等的研究,给定自然与对抗的特定类表征zs∼ pφs(zs),zs’ ∼ pφs(zs’),最优类型无关分类器ci*(·,wi*)满足:

​ 使用固定的最优类型无关分类器ci*(·,wi*),公式(7)可被转换为:

因此,当pφs(zs)等于pφs (zs’)时,可达到最优,命题证明完毕。

4. 实验结果

​ 本节中,我们通过各种实验验证我们方法的有效性。我们首先进行白盒与黑盒攻击,以比较DRRDN与最先进方法的鲁棒性。本节还对解耦的影响进行了进一步的分析。

设置

数据集。我们使用MNIST和CIFAR10作为评估防御方法的基准数据集。我们保持默认训练/测试集的分割比例。

实现。我们使用一个四层卷积网络作为MNIST数据集的基本表征提取器。DRRDN的解耦器和分类器是全连接层,为公平比较,DRRDN分类器的容量与基准模型相同。对于CIFAR10数据集,我们采用WRN-28-10作为表征编码器。在设计解耦器和分类器时,我们遵循了同对MNIST数据集相同的原则。在MINE和重构器模块中,为简单起见,我们亦采用了全连接层。针对优化方面,我们使用SGD优化器,初始学习率在CIFAR10上为1e-2和1e-1。训练总epoch为100次,在此期间,分别在第55、75和90个epoch上衰减0.01的学习率。

防御设置。我们在对抗训练框架下训练DRRDN。对于训练攻击,我们设置对MNIST的扰动ε=0.3,步长α=0.01;对CIFAR10的扰动ε=0.031,步长α=0.007。对于MNIST和CIFAR10,生成训练攻击的更新迭代次数分别为40和10。为简单起见,我们仅验证l∞范数攻击。

不同攻击下对抗防御的表现

白盒攻击。白盒攻击假定攻击者可以访问目标模型的结构与参数,并可直接根据梯度生成对抗样本。因此,标准训练模型的鲁棒性非常脆弱。我们采用三种类型的攻击进行验证,分别为FGSM、PGD和CW。PGD和CW对MNIST和CIFAR产生的攻击步长分别为0.01和0.003,FGSM的步长放大了10倍。我们遵循Carlini和Wagner的模式进行CW攻击。我们将DRRDN的性能与标准方式下训练的模型(即只用自然数据训练),以及在Madry和TRADES下训练的模型进行鲁棒性的比较。表1总结了自然准确度和鲁棒准确度。

表1 在不同对抗攻击下模型对(a)MNIST和(b)CIFAR10的表现

​ 从表1我们可以得到,标准模型几乎无法防御任何方式的攻击。当用对抗样本进行测试时,除如FGSM这种稍弱的攻击外,标准模型的鲁棒准确性会突然下降到几乎为0。Madry和TRADES证明了它们在防御对抗攻击方面的有效性,然而,它们自然准确度和鲁棒准确度之间的差距依旧较大。我们归因该现象为自然样本与对抗样本间表征分布不一致,所以模型难以同时泛化自然样本与对抗样本。相比之下,我们提出的DRRDN不仅在对抗分类准确度上取得了更高的效果,且在自然和对抗准确度之间保持了较小的差距。这表明,通过解耦和一致化特定类表征,可以让自然准确度和对抗鲁棒性之间的联系更加紧密。

黑盒攻击。我们进一步用黑盒攻击验证我们的模型。顾名思义,黑盒攻击假设攻击者并不知道目标模型防御的细节。尽管黑盒攻击通常比白盒弱得多,但在现实应用中,黑盒攻击设置更自然,因模型的具体设计往往是并不明确的,且其可证明模型对不同攻击的模型鲁棒性的可迁移性。

​ 对于黑盒攻击,我们先独立地训练代用模型,包括Standard、Madry、TRADES和DRRDN,根据他们的梯度使用PGD方法来产生对抗样本。之后,由代用模型产生的对抗样本将用于攻击其他目标模型。具体而言,在生成黑盒攻击时,我们先使用与白盒攻击相同的模型结构。为方便起见,PGD方法也使用同一组参数(即MINIST ε=0.3,α=0.01,40次迭代;CIFAR10 ε=0.31,α=0.003,20次迭代)。黑盒攻击下的分类结果如表2所示。

表2 在不同对抗攻击下模型对(a)MNIST和(b)CIFAR10的表现

​ 垂直观察表2,我们可以看到DRRDN赋予了模型对黑盒攻击最强的鲁棒性,这意味着DRRDN的鲁棒性并非针对单种攻击,而是普适的。这可能是因为类型无关的表征可以很好地区分自然分布与对抗分布,并将不同的攻击引导至非自然分布上。而有一个有趣的现象是,当我们横向观察表2,DRRDN提供了最弱的攻击。事实上,对这一现象存在自然且直观的解释。我们使用DRRDN生成基于特定类分支的梯度的对抗扰动。特定类表征可捕捉到输入的基本特征(理想情况下,比只用自然数据训练的标准模型所提取出的表征更纯粹,因为自然分布的冗余信息也被消除了)。因此,DRRDN产生的对抗扰动应比标准模型产生的扰动更弱。

解耦的影响

​ 上述实验表明,DRRDN能使DNN模型对白盒与黑盒对抗攻击具有更强的鲁棒性。我们想知道,我们精心设计的解耦机制是否真的有利于模型的鲁棒性。本节中,我们进行两个探索性实验来验证解耦的有效性。

混合重构表征。在方法部分,我们详细介绍了特定类表征和分类无关表征的功能。特定类解耦器目标是仅保留分类信息的表征,而分类无关表征的目的是吸收扰动的信息。当然,从自然样本和对抗样本中解耦出的特定类的表征应能很好地逐个泛化,因为它们的分布基本相同。因此,如果DRRDN的解耦机制真的有作用,不难想象,若将具有不同分布标签(即自然分布和对抗分布)的特定类和类型无关的表征结合起来,重建混合表征,我们将在标准模型的、在混合表征上微调的分类器上得到不同的分类结果。因为混合表征实际上是从两个分布中还原了原始表征。在与MNIST数据集上的白盒攻击相同的设置下,我们使用标准训练模型进行基于混合重构表征的分类实验。结果如图3所示。请注意,通过排列组合,我们可以重建四种混合表征,分别为zs+zi,zs‘+zi,zs+zi’和zs’+zi’。

表3 混合表征的分类能力

​ 表3中,非常明显,与zi’混合的重建表征(即来自对抗样本的类型无关表征)通常更难被标准模型正确分类。相反,包含zi的混合表征(即来自自然样本的类型无关表征)可以被很好地区分。这意味着分布特征依被成功分解至类型无关表征中去了。

解耦表征的可视化。为更好展示拆分效果,我们对拆分后的表征进行了可视化实验。可视化实验亦基于MNIST数据集的白盒攻击的实验设置。在得到用DRRDN训练的鲁棒模型后,我们首先从自然与对抗测试数据中提取特定类和类型无关的表征,然后通过t-SNE将高维表征压缩成一个二维特征。我们在图2展示了可视化效果。不同类别的压缩特征用不同颜色表示。除了特定类和类型无关的表征外,我们亦对标准模型的表征进行了可视化比较。

图2:MNIST上的特定类、类型无关和标准表征

​ 图2 的第一和第三行分别展示了来自自然分布和对抗分布的压缩表征,中间一行为两个分布的压缩表征的组合,其用来表明分布的一致性。我们对图2的压缩表征有如下三个重要发现:1)自然与对抗样本中。只有特定类的表征是可被分类的;2)只有类型无关表征可区分自然与对抗分布;3)在中间一行,自然与对抗样本中提取的特定类表征比标准表征更紧凑与吻合。上述特点亦证明解耦的效果。

消融实验。我们进一步进行了消融实验,分别从整个目标函数中去除互信息项(公式(9))或重构项(公式(10))。如表4所示,我们发现在没有互信息的情况下,DRRDN的准确度下降比没有重构项的情况下要严重得多,这也展示了完全解耦的重要性。

表4 对MNIST数据集的消融实验。DRRDN(最终算法)、DRRDN-MI(无互信息项)与DRRDN-REC(无重构项)。

5. 总结

​ 本文中,我们研究了针对对抗攻击的防御问题。我们提出了DRRDN模型来拆分特定类表征,其中关于自然与对抗领域特征的信息已被完全去除。我们亦通过使用GAN理论为我们提出的模型提供了理论保证。基于基准数据集的实证评估进一步证明了DRRDN与最先进防御方法相比的优越性。