这是一篇讲归因的文章,这篇文章对于归因提出了一下要求:
对于预测无关部分,归因为
与baseline(如全黑图片)由于某部分输出不同,这部分归因不为零。
方法上,首先baseline 应该为0,然后积分就行。
效果
但是这篇文章有几个问题,第一baseline不一定是全黑的图片,全黑也有全黑的信息,不然图上本来黑的部分,就没有任何信息了。第二这个积分公式也过于简陋了吧,图片样本空间真的是直线吗,是不是应该还有一项与样本空间相关的系数(这里默认为1),这个积分结果可能并不满足对于积分路径的不变性。
第三,这个相对积分的方法是否可以用于 adverserial attack 的解释。
这篇文章挺有意思
这里他的 Benchmark 叫 ROAR。简单来说就是根据可解释性模型给出的重要程度分布,去掉图片中重要的,然后再重新训练整个模型,以此评估这个重要程度分布是否准确,重训的模型掉点越多,说明选择越正确。
而且自带一个可视化类综述
本次实验的空白对照
开始对比
这篇文章几个问题,第一需要去掉足够多的特征,准确度才会有所下降。所以相对随机到处乱擦,IG之类去掉的重要部分不一定是必要部分,所以掉点可能很少(重训的模型可能会找新的特征)。
Reviewer也题出了一下问题,ROAR到底在measure什么?ROAR会让一个预测偏了的解释得低分吗?ROAR的评估得分真的是可靠的吗?ROAR是否能有效比较不同解释的效果?不同风格的解释方法可能有差不多的效果,但是会有完全不同的ROAR得分。
论文想法出发点:对于一个网络,如果我把某一层的 kernel permute 一下,那么这个网络应该是一样的。
如果同样输入,Net A 的某一层 可以通过简单线性变换到 Net B 的某一层 上去,那称他们享有0阶相同特征。
如果除了线性变换还需要一层非线性函数才能变到,就称为1阶相同特征。
如下是一个三阶的求解网络,
具体计算公式,有对不同层的权重衰减。
相当于使用神经网络进行模型相似度度量。
根据以上结果,进行了一些应用。
这里近似可视化了Weak DNN相对Strong DNN多出来的部分(Unreliable features),Strong 对 Weak 多的部分 (Blind spots).
然后做了以下几个实验(我个人觉得并不严谨):
1.把 ResNet-34 中间层的 Blind Spots 添加到 AlexNet中,AlexNet 准确率显著增长。
2.把 Weak DNN 最后 feature 层的 Unreliable features 去掉,然后重新训练 FC, 分类准确率上涨一些。
以上两个实验,我个人认为涨点只是因为在变相做知识蒸馏。
接下来,由于这本身是个度量,所以做了些度量常见实验,同网络不同初始化种子,度量训练稳定性。同网络同种子同分布的不同数据,度量训练稳定性。然后度量应用到蒸馏上去对比学习到的内容差异。
改进思路:
1.目前这个 NN 度量不满足 , 可以把度量网络对称一
在海量的特征中选出少量重要的特征。
这类就是讨论什么是可解释性,为什么要可解释性等等看起来非常哲学的东西,并且多数文章解释方法也非常"哲学"
综述了监督机器学习可解释性的定义、为什么需要可解释性、两类可解释性研究思路以及一些相关问题的讨论。这篇文章试图澄清可解释性的概念,为可解释性研究“正确的问题”扫清障碍。
比如,我们什么时候需要可解释性?如果一个模型的精确度很高,百分百正确,我们可能不需要可解释能力。如果一个模型精度不够高,我们就会急切想知道机器为何出错。如果机器出错的地方,也是人类出错的地方,那么人们可能将心比心,不会削弱对机器的信任。对于人类不容易出错,但机器却出错的地方,人类对机器的信任度就会急剧降低。
对于单一数据的预测的解释方式,使用一个线性逼近输入数据周围的空间,并对于这个线性分界线解释。
比如对于图片而言,就可以每次随机删除一些像