一、可解释性
在金融、医疗和司法等领域,可解释性变得越来越重要,因此我们特别关注模型的可解释性。例如,欧盟对AI系统的安全性提出了较高的要求,最近甚至出台立法,要求所有关键领域的AI系统必须具备可解释性。
然而,在大语言模型时代,可解释性是一个具有挑战性的问题。尽管像GPT3.5或GPT4这样的大模型在回答问题和提供解释方面表现出色,但它们本质上仍然是一个黑盒。在对模型的机制和透明性要求较高的场合,大语言模型的可信度仍然存在问题。目前的研究正专注于探索大语言模型的可解释性,例如OpenAI使用GPT4来研究GPT2模型的透明度,但这些研究仍处于早期阶段。
在我们的日常工作中,为大型金融机构提供尽调服务是很常见的情景。这涉及大量的数据,包括历史存量数据和每日更新的海量数据。我们需要对这些数据进行文本分析,并提供对重要情况的分析解释。使用像GPT4这样的模型可能成本过高,而GPT3.5也相对昂贵。因此,我们需要一种可靠的分析解释方法,同时要考虑成本和性能的问题。为了解决这个挑战,我们最近进行了一些探讨和研究工作。
在可解释性方面,有一些基本原则需要遵循。首先,我们希望提供的解释能够真实反映模型的行为,即"Faithful"(忠实性)。其次,解释应该符合人们的理解,并让人们觉得合理可信,即"plausible"(可信性)。这些原则适用于处理各种不同数据类型的模型的解释,不仅限于处理文本的模型。
解释方法可以分为后处理(Post-hoc)和先处理(Ante-hoc)两类。后处理方法是对模型进行解释的后续处理,它的好处是可以对任意模型进行解释。然而,它也存在一个问题,就是需要在被解释的模型之外开发一个替代模型,用于模拟和解释当前模型。在许多真实场景下,让替代模型准确捕捉被解释模型的特性是困难的,尤其是当被解释模型是一个黑盒模型时更加困难。另一种方法是"ante-hoc"模型,其思路完全不同,在开始进行设计模型时就考虑了内置可解释性功能。这样的模型自带了对预测结果进行解释的能力,也被称为自解释模型。这里例子中的的情感分析模型不仅可以给出评价分数,还能在模型内部自身提供对应预测进行解释。
二、协作博弈自解释框架和虚假关联介绍
RNP(Recursive Neural Predictors)是由MIT于2016年提出的一个基于协作博弈的自解释框架。它由解释器(explainer)或生成器(generator)和预测器(predictor)两个组件相互协作工作。在RNP模型中,解释器和预测器具有相同的架构。这里啤酒评价的例子中,给出对啤酒两个不同方面的评价,一个负责处理外观评价,另一个负责处理气味评价。解释器从整个评论输入X中选择是出一个子集Z作为解释(通常被称为Rationale),然后将这个解释传递给预测器,得到最终的预测结果。
RNP模型具有"Certification of Exclusion"(排除认证)的特点,也就是模型预测结果完全依赖于模型自身给出的解释,与其他因素无关,因此可以完全保证Faithfulness,因为其所提供的解释与模型进行预测的行为是完全一致。
该模型的训练目标有两个方面。首先是确保良好的预测能力。对于分类问题,目标是使预测结果尽可能接近真实标签(ground-truth)的cross-entropy。在回归问题中,可能使用平方差(MSE)作为优化目标。
其次,除了预测能力外,解释的质量也需要考虑。解释的目的是为了方便人类理解,降低认知负担。因此,我们希望提供一个简短但尽可能包含所有需要的完整解释信息的解释,避免过于冗长的内容,即"Sparsity"(稀疏性)。同时,我们也要确保解释是连续的文本片段,而不是零散的描述。在早期的基于每个词的权重的解释方法中,生成的解释通常是断断续续的,包含许多不连贯的文本,不适合人类阅读。因此,我们需要保证解释的连贯性,即在语言和语义上具有连续性。
RNP模型中的Rationale 选择是一个无监督序列标注问题,对于每个token有选中和不选中两个标签。这个问题通常可以使用强化学习方法来求解,或者使用Gumbel-Softmax采样进行处理。
除了文本数据,基于协作博弈的自解释框架,包括RNP,还可以应用于基于图数据的图神经网络(GNN)解释以及对处理图像数据的计算机视觉模型进行解释等。这种框架具有广泛的应用范围,不依赖于特定领域。
然而,RNP作为一个框架,在实际应用中也存在一些问题,其中之一是虚假的关联(spurious correlation)。虚假的关联问题可以分为两类。
虚假的关联问题可以分为两类。第一类是特征相关性(Feature correlation),主要源于数据分布的问题。例如,好味道的啤酒通常也具有好的气味,在上面这个啤酒评价的例子中,我们想要的是对啤酒气味评价预测结果给出的解释(下划线部分),但是RNP给出解释却是关于味道的相关的内容(红色部分)。类似的问题其实是普遍存在的存在,之前经典的post-hoc方法的论文LIME中给出的一个著名的例子,因为数据集里狼的图片总是有雪的背景,导致一些模型往往是用雪的背景作为分类狼的特征。这个狼的数据集的数据的选择上不太合理或者存在偏差。这里啤酒数据集倒不是因为数据选择偏差,而是不同特征之间确实天然就具有很强的关联。
另一类问题是"Degeneration"(退化),这是协作博弈框架固有的问题。在Rationale选择的过程中,解释器可能会选择一些无意义或缺乏信息的文本作为解释,但它们却可能是容易被预测器所区分并完成正确的分类的。例如,在选择解释时,解释生成器可能会采样到一个缺乏实际意义的“-”,但预测器可能会过拟合,把是否包含“-”可作为区分正类和负类的分类特征。这主要是因为预测器在还没有见过具有足够多样性的rationale候选之前就过早的过拟合到某些没有意义但具有一定辨识度的错误解释中,导致了degeneration的问题。
为了解决这些问题,一些方法在RNP框架上添加了额外的组件。这些组件使预测器能够看到除选择的解释之外的其他输入文本部分的信息。然而,这样做会增加复杂性、改变原始结构并引入新的问题。
三、对合作博弈机制的洞察和解决虚假相关性的方案
1、Solution 1: Folded Rationalization (FR) for Degeneration
我们这一系列研究中的第一项工作发表在NeuIPS-2022上,主要是对RNP在协作博弈过程中发生degeneration内部机制进行了分析并给出了解决方案。
通过深入分析博弈协作框架中的问题,我们提出了名为"Folded Rationalization"(FR)的解决方案,用于解决协作博弈过程中的退化问题。我们发现,问题的根源在于Generator和Predictor之间的协作步调不一致。Generator面临的任务较为复杂,需要在高维空间中进行采样以找到优质解释。相比之下,Predictor的任务相对简单,只需将解释文本进行分类。这导致了两个任务之间的学习进程不协调。
根据前面的观察,我们提出了一个非常简单有效的方法,就是将RNP的2阶段方法,进行折叠,使得Generator和Predictor共享参数,不需要像之前的方法那样增加额外的模块和参数。
FR让Generator和Predictor共享参数的做法,可以迫使两者在学习的步调一致。同时共享参数,也让Predictor有机会获取更完整的输入信息。这样可以让防止Predictor对于没有信息量的rationale候选产生overfit,反过来,更好的Predictor也能对Generator提供更好的指导和反馈。
我们在经过过滤的啤酒评论数据集上进行了实验,该数据集剔除了存在强特征相关性的评论,以专门研究我们的FR模型对退化问题的解决能力。实验结果显示,FR与之前的方法相比取得了显著的改进,在F1分数上最多能提高10.3%。
2、Solution 2: Decoupled Rationalization (DR) for Degeneration
我们系列工作中的第二项,是对degeneration问题进行了更进一步的深入分析,提出了更好的解决方案,并且完全不需要修改RNP的架构,这项工作发表在KDD-2023上。
在FR的基础上,我们对Generator和Predictor的两者学习率之间的比例进行进一步更细致的分析。用λ来表示预测器和生成器的学习率比例。我们发现,当λ小于1时,即降低预测器的学习率使其小于生成器的学习率时,解释质量显著提高。这是一个普遍的规律,预测器的学习率较低时总能得到更好的解释结果。
前面的观察给了我们启示,让我们找到一种比我们之前提出的FR更简单和直接的方法,就是保持和RNP完全相同的架构,只需要让Predictor的学习率相对于Generator更低就可以了。
需要注意的是,其实对博弈中两个agent的学习率进行不同的调节,在之前对抗博弈方法中也有被研究过,但是他们结论是正好反过来的,他们的对抗博弈方法需要加速critic(GAN中的discriminator),我们的协作博弈则需要slow down predictor.
关于如何选择λ的值,目前我们还没有找到科学严格的论证,但我们发现了一种在实践中非常有效的启发式规则。该规则是通过对一些样例求解释长度和输入全文本长度之比的平均值来确定λ的值。例如,在之前提到的啤酒数据集中,这个比例可能在0.1左右,大约是总长度的10%左右。
我们还希望对“为何我们提出的方法有效”更深层次的原因进行分析。之前一些工作,尤其是对抗博弈的方法GAN,也给了我们启发,他们发现Lipschitz Continuity是分析系统稳定性和健壮性一个很好的指标。所以我们也开始考虑是否可以将Lipschitz Continuity用于协作博弈系统的分析。
Lipschitz Continuity其实概念上是很简单的,就是反映了预测函数的平滑程度。其实这也容易理解,一个对应系统输入输出的函数比较平滑,就不会发生输入的细微变化,导致输出剧烈变动的情况,系统也就自然更稳定。相反,如果模型函数存在尖锐或阶梯状的变化,系统就不稳定,微小的输入变化可能导致剧烈的输出变化。
Lipschitz Continuity是通过计算Lipschitz Constant来测量的,更小的Lipschitz constant 代表更好的Lipschitz continuity。
这里是Lipschitz Constant的定义,数学上的细节这里可以暂时略过,并不会影响对后续基本方法的理解,感兴趣的听众稍后可以阅读论文中的细节。
直观上很容易理解,如果Zi和Zj分别是从两条情感取向完全相反的评论中抽取的rationale候选,如果两者都是没有什么信息含量的噪声的话,两者之间的语义距离会比较小。而如果Zi和Zj都是比较意义的rationale候选的话,两者之间的语义距离会比较大。事实上我们的实验也证明了这一点。
根据前面的观察结果和Lipschitz Constant定义我们可以很容易推导出一个结论:Predictor的Lipschitz Constant的值越小,则Generator选择有意义的rationale候选来作为解释的概率就越高。我们从而可以建立起predictor的Lipschitz Continuity和degeneration之间的关联了,稍后这可以用来帮助解释为何我们提出的DR方法是有效的。这里具体的推导过程这里就不详细解释,可以阅读论文了解更多细节。
之前的研究中已经有一些限制模型Lipschitz constant的方法,例如Spectral normalization 就是僵硬的通过手工设定一个cutoff来限制Lipschitz constant的方法,我们实验结果显示虽然Spectral normalization能一定程度提高Generator产生rationale的质量,但是却会损伤Predictor的性能。
我们的理论分析和实验都显示:我们提出的方法DR (也就是相对调低predictor的学习率) 提供了一种更灵活更好的方法来限制Lipschitz Constant的值,在保证rationale的质量的同时还能保证predictor有好的性能。
当λ<1时,Lipschitz常数显著降低,表明我们的方法能够提高系统的可靠性。与标准的RNP方法进行比较,可以看到我们提出的DR方法的Lipschitz Constant远远小于RNP对应的值,这表明我们的系统更加稳定。
在啤酒数据集上,我们的DR方法展现出了非常好的效果,比之前的FR方法也要更好一些。综合来看,DR排名第一,FR排名第二,两种方法相较于之前的方法都有显著提升。
实验结果还显示(1)降低Predictor的学习率并没有减缓DR的收敛速度。(2)RNP在训练的时候Predictor的正确率上升很快,并一直比DR好,但在验证数据集中,RNP则没有显示出优势,显示了RNP过拟合的问题。
3、Solution 3: Multi-Generator Rationalization (MGR) for Spurious Correlations
最后讨论我们系列工作中的第三项,这部分工作发表在ACL-2023上。
之前的研究工作基本都是单独处理degeneration(例如,刚介绍的我们前两项工作FR和DR)或者单独处理feature correlation问题,但是很少有考虑同时处理好这两个问题的。
在这里我们希望能够同时能够可以同时处理好degeneration和feature correlation这两类虚假关联问题。
我们这项工作MGR是第一个来同时处理degeneration和feature correlation的问题的方法。
MGR的基本思路也很简单直接,就是希望通过使用多个generator能获得对候选rationale更广泛和更多样性的观察。在训练好模型之后,进行推理的时候,多个生成器会达到收敛状态,所以我们只需要任选一个generator就可以了,例如就选第一个,这样可以大大减少部署和使用的成本,并且提高效率。因此,最终的应用部署和推理过程的性能复杂度与标准的RNP相当。
采用多个Generator,每个Generator采用不同倍率的学习率,降低Predictor的学习率,可以让这些Generator产生出更具多样性的rationale candidates,并且可以使得所有的Generator都最终收敛到非常类似的结果。实验结果显示,每个Generator采用不同的学习率可以获得更好的rationale质量。因为最后Generator都会收敛到很类似的结果,所以推理的时候只选择一个Generator几乎不会影响性能。
通过学习率的收敛过程可以观察到,训练过程中所有生成器逐渐趋于一致,这解释了为什么最后只需要一个生成器即可。
MGR在没有被过滤的原始啤酒数据集上和之前的处理feature correlation的方法相比取得显著的改进。在处理degeneration,也比之前的其他方法有所显著改进,性能和FR和DR相当。
四、未来工作的展望
总结来说,未来工作的展望主要包括以下几个方面:
1、因果推理
在大模型时代,因果推理仍然是解决可解释性问题的关键。虽然现有的部分因果推理方法存在一些问题,但在因果推理的大方向上仍有潜力。未来的研究可以致力于建立一个统一的框架,解决不同类型的可解释性问题。
2. 应用领域的迁移:我们在协作博弈的研究中发现了一些通用的原理和洞见。这些分析可能适用于其他领域,例如金融知识图谱和推荐系统等涉及图数据和GNN的模型。未来的工作可以将这些原理应用于其他领域,进一步拓展协作博弈的理论应用范围。