近年来,机器学习(ML)模型已被应用于广泛的自然语言处理(NLP)任务。.除了做出准确的决策外,了解模型如何做出决策的必要性在许多应用中也变得很明显。.为此,许多有助于解释ML模型决策过程的解释性方法已经被开发出来。.然而,目前还没有广泛接受的指标来评估这些方法所产生的解释的质量。.因此,目前还没有标准的方法来衡量一种解释性方法在多大程度上实现了预期目标。.此外,还没有一个公认的性能标准,我们可以据此对目前现有的可解释性方法进行比较和排名。.在本文中,我们提出了一个新的指标来量化由可解释性方法产生的解释的质量。.我们使用六种可解释性方法在三个NLP任务上计算了指标,并介绍了我们的结果.
《Interpretation Quality Score for Measuring the Quality of interpretability methods》
论文地址:http://arxiv.org/abs/2205.12254v1
,