Debugging Tests for Model Explanations

模型解释的调试测试
引用
Adebayo J , Muelly M , Liccardi I , et al. Debugging Tests for Model Explanations[J]. 2020.
摘要
我们研究了事后模型解释对于诊断模型错误(即模型调试)是否是有效的。为了应对解释模型预测的挑战,人们提出了大量解释方法。尽管人们越来越多地使用这些方法,但仍不清楚它们是否有效。首先,我们根据bug的来源,将其分为:数据、模型和测试时污染bug。对于几个解释方法,我们评估了它们的能力:检测虚假的关系产物(数据污染),诊断错误标注的训练样本(数据污染),区分(部分)重新初始化的模型和训练好的模型(模型污染),以及检测分布外的输入(测试时污染)。我们发现,所测试的方法能诊断出一个虚假的背景错误,但并不能确凿地识别错误标注的训练样本。此外,一类修改的反向传播算法的方法对深度网络的高层参数没有影响;因此,其对诊断模型污染无效。我们进行了一项人群受试者研究来补充我们的分析,我们发现受试者未能根据归因来识别有缺陷的模型,而主要依赖于模型预测。综上,我们的结果为从业者和研究者提供了在模型测试时将解释作为工具的指导。