Practical Accuracy Estimation for Efficient Deep Neural

高效深度神经网络测试的实用准确度估计

摘要

​ 深度神经网络 (Deep neural network, DNN) 愈发流行,DNN的测试对DNN的正确性(即DNN在指定工作中的准确度)至关重要。然而,DNN 测试存在严重的效率问题,即,标注每个测试输入以了解DNN在测试集上的准确度的成本很高,因为需要大量的人(甚至他们还需要特定领域知识)来对测试数据进行手工标注,而测试集本身又是大规模的。为缓解此问题,本文提出了一种叫PACE新颖手法(Practical ACcuracy Estimation的缩写),其选择一小部分测试输入,可以精确地估计整个测试集的准确性。这样一来,只需对这小部分选定样本进行标注即可,这很大程度上降低了标注成本。除了实现精确的准确性估计外,为使PACE更加实用,其还被要求应该是可解释的、确定的,并尽可能地高效的。因此,PACE首先结合聚类,将具有不同测试能力(即测试DNN模型不同功能)的测试输入划分为不同的组。然后,PACE利用MMD-critic算法(一种最先进的基于样例的解释算法,根据组的大小,从每组中选择原型,即选择最具代表性的测试输入)来可以减少聚类带来的噪音影响。同时,PACE还使用了自适应随机测试的思想,从少数空间(即没有聚成任何一组的测试输入)中选择测试输入,以保证在所需的测试输入数量下实现极大的多样性。两个平行的选择过程(即同时从组和少数空间中进行选择)组建了最终的一小部分被选中的测试输入集合。结果表明,PACE能够精确估计整个测试集的准确性,平均偏差只有1.181%∼2.302%,大大超过了最先进的方法。

Delving into Data: Effectively Substitute Training for Black-box Attack

深入研究数据:用于黑盒攻击的有效替代训练

摘要

​ 深度模型在处理对抗样本时显示了它们的脆弱性。对于黑盒攻击,在无法访问被攻击模型的架构和权重的情况下,大家广泛聚焦于训练对抗攻击的替代模型的方法。以往的替代训练方法主要是基于真实训练数据或合成数据来窃取目标模型的知识,而没有探索什么样的数据可以进一步提高替代模型和目标模型之间的可转移性。本文中,我们提出了一种新视角的替代训练,聚焦于设计知识窃取过程中使用的数据分布。更具体地说,我们提出了一个多样化数据生成模块来合成具有广泛分布的大规模数据。我们还引入了对抗替代训练策略,以关注分布在决策边界附近的数据。这两个模块的结合可以进一步提高替代模型和目标模型的一致性,从而大大提高了对抗攻击的有效性。大量的实验证明了我们的方法在非定向和定向攻击设置下对最先进的竞争对手的有效性。我们还提供了详细的可视化和分析,以帮助理解我们方法的优势。

DeepInspect A Black-box Trojan Detection and Mitigation Framework for Deep Neural Networks

DeepInspect:深度神经网络的黑盒木马检测与缓解框架

引用

Chen H, Fu C, Zhao J, et al. DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Neural Networks[C]//IJCAI. 2019: 4658-4664.

摘要

深度神经网络 (DNN) 容易受到神经木马 (NT) 攻击。在神经木马攻击中,攻击者在DNN训练期间注入恶意行为。这种类型的“后门”攻击在输入标记有被攻击者指定的触发器(trigger)段时激活,其会导致模型预测错误。由于DNN在各关键领域中被广泛应用,因此在使用模型之前检测预训练的DNN是否感染木马是必不可少的操作。我们在本文中的目标是解决对未知DNN的NT攻击的安全问题,确保安全的模型部署。我们提出了DeepInspect,这是第一个具有最小的模型先验知识的黑盒木马检测解决方案。DeepInspect使用条件生成模型从查询的模型中学习潜在触发器的概率分布,从而检索出后门插入的足迹。除了NT检测之外,我们还表明DeepInspect的触发器生成器能够通过模型修补来有效缓解木马感染。我们证实了DeepInspect对各种基准的最先进的NT攻击的有效性、效率和可扩展性。广泛的实验表明,DeepInspect提供了卓越的检测性能和比以前的工作更低的运行时间开销。

Knowledge Graphs Enhanced Neural Machine Translation

知识图谱加强神经机器翻译

引用

Zhao Y , Zhang J , Zhou Y , et al. Knowledge Graphs Enhanced Neural Machine Translation[C]// Twenty-Ninth International Joint Conference on Artificial Intelligence and Seventeenth Pacific Rim International Conference on Artificial Intelligence {IJCAI-PRICAI-20. 2020.

摘要

知识图谱(Knowledge graphs, KG)存储了大量关于各种实体的结构化信息,其中许多是神经机器翻译(neural machine translation, NMT)的平行句对所未覆盖的。为提高这些实体的翻译质量,在本文中我们提出了一种新颖的知识图谱加强神经机器翻译方法。具体来说,我们首先通过将源知识图谱和目标知识图谱转换为统一的语义空间,以归纳这些实体的新翻译结果。然后我们生成足够的伪平行句对,其中包含这些归纳实体对。最后,NMT模型由原始句和伪句对联合训练。对汉英和英日翻译任务的大量实验表明,我们的方法在翻译质量方面明显优于强基线模型,尤其是在处理归纳实体方面。

Understanding Recurrent Neural Networks Using Nonequilibrium Response Theory

使用非平衡响应理论理解循环神经网络

引用

Lim S H . Understanding Recurrent Neural Networks Using Nonequilibrium Response Theory[J]. 2020.

摘要

循环神经网络(RNN)是一种受大脑启发的模型,其广泛的应用于机器学习,以进行连续数据的分析。本工作有助于使用非平衡学说的响应理论更深度地理解RNN如何处理输入信号。对于一类由输入信号驱动的连续时间随机RNN(SRNN),我们为其输出推导出一个沃尔泰拉级数的序列表示。这种表示法是可解释的,并将输入信号从SRNN结构中分离出来。序列的核是一些递归定义的相关函数,其与完全决定输出的无扰动动力学相关。利用这种表示的联系及其对粗糙路径理论的影响,我们确定了一个通用特征——响应特征,其被证明是输入信号的张量积的特征与自然支撑基础。特别地,我们展示了仅优化了读出层的权重,而隐藏层的权重保持固定、未被优化的SRNN,这可被看作是在与响应特征相关的再生核希尔伯特空间中执行的核机器。

Attention Augmented Convolutional Networks

注意力增强的卷积网络

引用

Bello I, Zoph B, Vaswani A, et al. Attention augmented convolutional networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 3286-3295.

摘要

卷积网络一直是许多计算机视觉应用中的首选范式。然而,卷积操作存在一个明显的弱点,即它只对局部邻域进行操作,因此缺少全局信息。另一方面,自注意力已经成为捕捉长距离相互作用的方法,但大多被应用于序列建模和生成式建模任务。本文中,我们考虑将自注意力用于判别视觉任务,将其作为卷积的替代方法。我们引入了一种新颖的二维相对自注意力机制,该机制被证明在取代卷积作为图像分类的独立计算单元方面具有竞争力。我们在控制实验中发现,把卷积和自注意力结合起来时可以得到最好的效果。因此,我们建议使用这种自注意力机制来增强卷积算子,将卷积特征图与通过自注意力产生的一组特征图连接起来。广泛的实验表明,注意力增强可在参数个数保持基本相似的情况下,使ImageNet上的图像分类和COCO上的物体检测在许多不同的模型和规模上有一致的效果提升,其中也包括了ResNets和最先进的移动受限网络。特别的,我们的方法在ImageNet分类上比ResNet50基线提高了1.3%的top-1准确率,并超过了其他图像的注意力机制,如Squeeze-and-Excitation。在COCO物体检测中,其相较RetinaNet基线上取得了1.4mAP的提升。

RefineNet Multi-Path Refinement Networks

RefineNet:用于密集预测的多路径细化网络

引用

Lin G, Liu F, Milan A, et al. Refinenet: Multi-path refinement networks for dense prediction[J]. IEEE transactions on pattern analysis and machine intelligence, 2019, 42(5): 1228-1242.

摘要

近来,层数相当深的卷积神经网络(CNN)在对象识别方面表现出了出色的性能,其已成为语义分割和深度估计等预测问题的首选。然而,深层CNN中的重复子采样操作,如池化或卷积都会导致初始图像分辨率大幅下降。在此,我们提出了RefineNet,一个通用的多路径细化网络,其明确利用了下采样过程中的所有可用信息,以使用长距离残差连接实现高分辨率的预测。通过这种方式,捕捉高层语义特征的更深层可以直接利用早期卷积的细粒度特征进行细化。RefineNet的各个组成部分采用了遵循恒等映射思维的残差连接,这使得有效的端到端训练成为可能。此外,我们引入了链式残差池,其以有效的方式捕获丰富的上下文背景。我们对语义分割进行了全面的实验,其是一个密集分类问题,其在七个公共数据集上取得了良好的性能。我们进一步将我们的方法用于深度估计,并证明我们的方法在密集回归问题上的有效性。

Climbing towards NLU On Meaning, Form, and Understanding in the Age of Data

迈向NLU:关于数据时代的含义、形式和理解

引用

Bender E M, Koller A. Climbing towards NLU: On meaning, form, and understanding in the age of data[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 5185-5198.

摘要

大型神经语言模型在许多NLP任务上的成功令人激动。然而我们发现,这些成功有时是就像是在炒作,它们将模型描述成“理解”语言或捕捉“含义”。在本文立场中,我们认为仅在形式上训练的系统先验地无法学习含义。与ACL 2020的主题“通观现状与展望未来”一致,我们认为,清楚地理解形式和含义之间的区别,将有助于推进围绕自然语言理解的科学进步。

Debugging Tests for Model Explanations

模型解释的调试测试

引用

Adebayo J , Muelly M , Liccardi I , et al. Debugging Tests for Model Explanations[J]. 2020.

摘要

我们研究了事后模型解释对于诊断模型错误(即模型调试)是否是有效的。为了应对解释模型预测的挑战,人们提出了大量解释方法。尽管人们越来越多地使用这些方法,但仍不清楚它们是否有效。首先,我们根据bug的来源,将其分为:数据、模型和测试时污染bug。对于几个解释方法,我们评估了它们的能力:检测虚假的关系产物(数据污染),诊断错误标注的训练样本(数据污染),区分(部分)重新初始化的模型和训练好的模型(模型污染),以及检测分布外的输入(测试时污染)。我们发现,所测试的方法能诊断出一个虚假的背景错误,但并不能确凿地识别错误标注的训练样本。此外,一类修改的反向传播算法的方法对深度网络的高层参数没有影响;因此,其对诊断模型污染无效。我们进行了一项人群受试者研究来补充我们的分析,我们发现受试者未能根据归因来识别有缺陷的模型,而主要依赖于模型预测。综上,我们的结果为从业者和研究者提供了在模型测试时将解释作为工具的指导。

Prioritize Crowdsourced Test Reports via Deep Screenshot Understanding

基于深度截图理解的众包测试报告优先级排序

摘要

​ 众包测试在移动应用程序测试中日益占据主导地位,但对于应用开发者来说,审查数量过多的测试报告是很大的负担。已有许多学者提出基于文本和简单图片特征的测试报告处理方法。然而,在移动应用测试中,测试报告所包含的文本较为精简且信息不够充分,图片则能够提供更丰富的信息。这一趋势促使我们在深度截图理解的基础上,对众包测试报告的优先级进行排序。
​ 本文中,我们提出了一种新的众包测试报告优先级排序方法,即DEEPPRIOR。我们首先引入一个新的特征来代表众包测试报告,即DEEPFEATURE,它基于对应用程序截图的深度分析,涵盖了所有组件(widget)及它们的文本、坐标、类型甚至是意图。DEEPFEATURE包括直接描述bug的bug特征(Bug Feature),和刻画bug完整上下文的上下文特征(Context Feature)。DEEPFEATURE的相似度用于表示测试报告的相似度,并被用于对众包测试报告进行优先级排序。我们形式上将相似度定义为DEEPSIMILARITY。我们还进行了一个实证实验,以评估所提技术在大型数据中的有效性。结果表明,DEEPPRIOR性能最佳,以不足一半的成本获得优于其它方法的结果。

索引词 众包测试,移动应用测试,深度截图理解