选择可解释性高的机器学习模型,而不是决策风险高的黑匣子模型

三世轮回 提交于 2020-01-18 23:43:25

作者 | Adrian Colyer, Venture Partner, Accel
编译 | CDA数据分析师

本文是技术和哲学论点的混合,本文的两个主要结论:第一,我对可解释性高的机器学习模型和决策风险高的黑匣子模型之间区别的理解,以及为什么前者可能有问题;其次,它是创建真实可解释模型的技术的重要参考。

在医疗和刑事司法领域,越来越多的趋势将机器学习(ML)运用于对人类生活产生深远影响的高风险预测应用程序中……缺乏缺乏透明性和可预测性的预测模型可能会(已经造成)严重后果……

1、定义术语

一个模型可能是一个黑匣子,其原因有两个:(a)该模型计算的功能过于复杂,以至于任何人都无法理解,或者(b)该模型实际上可能很简单,但是其细节是专有的不可检验。

在可解释的机器学习中,我们使用复杂的黑匣子模型(例如DNN)进行预测,并使用创建的第二个(事后)模型来解释第一个模型的工作。这里的一个经典示例是 LIME,它探索复杂模型的局部区域用以发现决策边界。

一个可解释模型是用于预测的模型,可以自己直接检验和人类专家解释。

可解释性是特定于域的概念,因此不能有通用的定义。但是,通常可解释的机器学习模型 以模型形式受限,因此它对某人有用,或者服从领域的结构知识,例如单调性或来自领域知识的物理约束。

尽管缺乏很明确的定义,但是越来越多的文献提出了可能是可解释的算法。 似乎我们可以得出以下结论:要么是(1)可解释性的定义是通用的,但没有人愿意打扰用书面形式表达它,或者(2)“可解释性”的定义不清楚,因此理论上关于机器学习的模型的可解释性是科学的。 有关文献的研究表明,后者是符合实际情况的。 关于模型可解释性的文献中提出的目标和方法的多样性表明,可解释性不是一个单一的概念,而是一组需要分别讨论的不同概念。

2、黑匣子模型的解释并不能真正解释

对于为黑匣子模型的输出提供解释有很多研究。鲁丁认为这种方法从根本上是有缺陷的。她的论点的根源是观察到,即席解释只是对黑匣子模型所做的事情的“猜测”(我的措词选择):

解释一定是错误的。他们不能对原始模型具有完美的忠诚度。如果解释完全忠实于原始模型的计算结果,则该解释将等于原始模型,并且首先不需要解释的就是原始模型。

甚至“解释”一词也是有问题的,因为我们并没有真正描述原始模型的实际作用。COMPAS(替代性制裁的更正罪犯管理概况)的例子将这种区别变为现实。由ProPublica创建的COMPAS线性解释模型(取决于种族)被用来指责COMPAS(这是一个黑盒子)取决于种族。但是我们不知道COMPAS是否具有种族特征(尽管它很可能具有相关变量)。

让我们停止将近似值称为黑盒模型预测的解释。对于没有明确使用种族的模型,会自动解释为“此模型预测您是黑人而将您预测为目标对象”,这并不是该模型实际应该做的工作。

在图像空间中,显着性地图可以向我们展示网络在看什么,但是其实它们也不能告诉我们网络在看什么。许多不同类的显着性映射可能非常相似。在下面的示例中,基于显着性的“解释”看起来非常相似,原因在于模型为何认为图像是沙哑的,以及为什么认为图像是长笛的!

由于黑匣子的解释并不能真正解释问题,因此识别黑匣子模型并对其进行故障排除可能非常困难。

3、反对可解释模型的争论

考虑到黑匣子模型的问题及其解释性,为什么黑匣子模型如此流行?很难与深度学习模型最近取得的巨大成功抗衡,但是我们不应该由此得出结论:更复杂的模型总是更好。

人们普遍认为,越复杂的模型越准确,这意味着要实现最佳的预测性能,就需要一个复杂的黑匣子。但是,通常情况并非如此,尤其是当数据结构化时,就自然有意义的特征而言,具有良好的表示能力。

由于相信复杂是好的,这也是一个普遍的神话,即如果您想要良好的表现,就必须牺牲可解释性:

在准确性和可解释性之间始终需要权衡的信念,导致许多研究人员放弃了试图产生可解释模型的尝试。现在,研究人员已经接受了深度学习方面的培训,而没有可解释的机器学习方面的培训,这使问题更加复杂。

根据罗生门集的说法,如果我们尝试,我们往往容易能够找到一个解释模型:鉴于数据允许一大组相当准确的预测模型的存在,它往往包含至少一个模型,这是可解释的。

这给我提出了一种有趣的方法,首先可以在没有任何特征工程的情况下尝试一种相对较快的尝试深度学习方法的方法。如果产生合理的结果,我们知道数据允许存在相当准确的预测模型,并且我们可以花时间尝试寻找一种可以解释的东西。

对于没有混淆,完整和干净的数据,使用黑匣子式机器学习方法比使用一般模型解决问题更容易。但是,对于高风险的决策,分析师的时间和模型运行的时间比具有缺陷或过于复杂的模型的成本要低。

4、创建可解释的模型

在寻找可解释的机器学习模型时经常遇到的三个常见挑战:第一个挑战是如何构建最佳逻辑模型,第二个挑战是如何构建最佳(稀疏)评分系统,第三个挑战是如何定义特定领域中的可解释性意味着什么。

4.1 逻辑模型

逻辑模型只是一堆if-then-else语句!这些都是分析师手动去敲的,已经有很长时间了。对于给定的精度水平,理想的逻辑模型将具有最少数量的分支。 CORELS 是一种旨在查找此类最佳逻辑模型的机器学习系统。下面是一个示例输出模型,其对佛罗里达州Broward County的数据具有与黑盒COMPAS模型相似的准确性:

请注意,图形标题将其称为“机器学习模型”。该术语在我看来似乎不太正确。这是一个机器获悉-model和CORELS是机器学习模型产生的,但是IF-THEN-ELSE语句本身并不是一个机器学习模型。但是,CORELS看起来非常有趣,我们将在下一版《晨报》中对其进行更深入的研究。

4.2 计分系统

计分系统在医学中普遍使用。我们对最佳评分系统感兴趣,这些评分系统是机器学习模型的输出,但看起来它们可能是人为产生的。例如:

该模型实际上是由RiskSLIM生成的, RiskSLIM是Risk-Supersparse-Linear-Integer-Models算法。

对于CORELS和RiskSLIM模型,要记住的关键是,尽管它们看起来简单且易于解释,但它们给出的结果具有很高的竞争准确性。让事情看起来这么简单并不容易!我当然知道我愿意部署哪种模型并解决给定的问题。

5、可解释模型的重要性

无论您建立模型的最终目的是什么,您都会有受众用户,都需要向受众用户提供可解释或者可理解、可关联的模型思路。数据和机器学习模型的可解释性是在数据科学的 “有用性”中至关重要的方面之一,它确保模型与您想要解决的问题保持一致。

对于一名数据分析师而言,CDA数据分析师认为应重视机器学习模型的可解释性主要有以下几个原因:

  1. 判别并减轻偏差(Identify and mitigate bias)
  2. 考虑问题的上下文(Accounting for the context of the problem)
  3. 改进泛化能力和性能(Improving generalisation and performance)
  4. 道德和法律原因(Ethical and legal reasons)

机器学习模型的可解释性越强,人们就越容易理解为什么要做出某些决定或预测。其重要性体现在:建模阶段,协助开发人员了解模型,比较选择模型,必要时优化调整模型;在运营阶段向业务方解释模型的内部机制,并解释模型的结果。

6、针对特领域的可解释性进行设计

即使对于机器学习的经典领域,也需要构建潜在的数据表示形式,也可能存在与黑匣子模型一样准确的可解释模型。

关键是要在模型设计本身中考虑可解释性。例如,如果数据分析师在哪里向您解释为什么以他们的方式对图像进行分类,他们可能会指出图像在推理过程中很重要的不同部分(有点像显着性),并尝试说明原因。Chen,Li等人将这个想法引入网络设计 。建立一个模型,该模型在训练过程中学习用作班级原型的图像部分,然后在测试过程中找到与所学原型相似的部分测试图像。

这些解释是模型的实际计算,而并非事后解释。该网络之所以称为“看起来像这样”,是因为其推理过程会考虑图像的“这个”部分是否看起来像“那个”原型。

图5表明左侧的测试图片与训练示例的原型部分。 要分类的测试图像在左边,最相似的原型在中间一栏中,显示测试图像哪一部分与原型相似的热图是在右边。 我们在右侧提供了测试图像的副本,以便更轻松地查看鸟类的哪一部分。 热图指的是原型与测试图像的相似性决定了预测的图片的类别标签。在此,图像被预测为粘土色的麻雀。 顶级原型似乎将鸟的头部与黏土麻雀的原型头部进行比较,第二个原型认为鸟的喉咙,第三只看羽毛,最后一只看腹部和腿。 测试图片 从50开始。 来自51 52,53. 54的原型。图像由Alina Barnett构建。

7、潜在的政策更改

本文的第4节讨论了潜在的政策更改,以鼓励人们采用可解释的模型(在高风险情况下特别需要)。

让我们考虑一个可能存在的要求,即对于某些高风险的决策,当存在具有相同性能水平的可解释模型时,不应选择黑匣子机器学习模型。

这听起来是一个值得实现的目标,但用措辞来说,很难证明不存在可解释的模型。因此,也许必须要求公司能够提供证据,证明他们已经在努力的情况下搜索了可解释的模型……

考虑第二个建议,该建议比上面提供的建议要弱,但可能会产生类似的效果。让我们考虑是否有可能要求引入黑匣子模型的组织报告可解释的建模方法的准确性。

如果遵循此过程,那么如果作者的经验可以满足,我们很可能会看到大量部署的黑匣子机器学习模型:

在某些应用程序域中,可能需要一个完整的黑匣子来进行高风险决策。到目前为止,尽管我已经在医疗保健和刑事司法,能源可靠性和财务风险评估方面进行了许多应用程序开发,但我还没有遇到过这样的应用程序。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!