因果关系不能被简化为概率。不能使用概率提高来定义因果关系,如X提高了Y的概率,就说X导致了Y。如:鲁莽驾驶会导致交通事故,吸烟引发肺癌等。前者只是增加了后者发生的可能性,而非必然会让后者发生。如同啤酒和尿布,也如同冰激淋热销与犯罪率提高一样,都属于相关,还不能证明是因果。建构表达式P(Y|X,K=k)>P(Y|K=k),其中K代表背景变量。事实上,如果我们把温度作为背景变量,那么这个表达式的确适用于冰激凌的例子。例如,如果我们只看温度为30℃的日子(K=30),我们就会发现冰激凌的销售和犯罪率之间不存在任何残留的关联。只有把30℃的日子和0℃的日子进行比较,我们才会产生概率提高的错觉。
条件概率只能表达我们观察到了X,那么Y的概率就提高了,不能表达为X提高了Y的概率。因为可能X和Y都是果,真正的因是Z,是Z的变化导致X提高,同时也是Z的变化导致了Y的提高。条件概率只是因果关系的第一层,即关联,通过数据的观察,发现了某种关联,还不能确定是因果。
如果P(Y|do(X))>P(Y),那么我们就可以说X导致了Y。但这个对比是困难的,如一个人没有抽烟的时候,没得肺癌,抽烟了,得了肺癌,可以说抽烟导致了肺癌,但抽烟导致肺癌的这个关系的概率就不得而知了,因为还有很多其他的因素,毕竟do抽烟的同时也do了很多其他的事情,比如环境,比如饮食习惯,行为习惯等等。
贝叶斯之父的这段话让我本以为用贝叶斯网络来做因果推断的想法差点颠覆:现在我必须坦白一件事:我也曾犯过同样的错误。我并非一直把因果放在第一位,把概率放在第二位。恰恰相反!20世纪80年代初,我开始踏足人工智能方面的研究,并认定不确定性正是人工智能缺失的关键要素。此外,我坚持不确定性应由概率来表示。因此,正如我将在第三章中解释的那样,我创建了一种关于不确定性的推理方法,名为“贝叶斯网络”,用于模拟理想化的、去中心化的人类大脑将概率纳入决策的方法。贝叶斯网络可以根据我们观察到的某些事实迅速推算出某些其他事实为真或为假的概率。不出所料,贝叶斯网络立即在人工智能领域流行开来,甚至直至今天仍被视为人工智能在包含不确定性因素的情况下进行推理的主导范式。虽然贝叶斯网络的不断成功令我欣喜不已,但它并没能弥合人工智能和人类智能之间的差距。我相信你现在也能找出那个缺失的要素了——没错,就是因果论。是的,“因果幽灵”无处不在。箭头总是由因指向果,并且研究者与实践者常常能注意到,当他们反转了箭头之后,整个推断系统就变得无法控制了。但在很大程度上,他们认为这只是一种文化上的惯性思维,或者是某种旧思维模式的产物,并不涉及人类智能行为的核心层面。贝叶斯网络适用于一个所有问题都被简化为概率或者(用本章的术语来说就是)变量间的关联程度的世界,它无法自动升级到因果关系之梯的第二层级或第三层级。幸运的是,我们只需要对其进行两次修正就可以实现它的升级。第一次是1991年“图—手术”(graph-surgery)概念的提出,这一概念使贝叶斯网络能够像处理观察信息一样处理干预信息。第二次修正发生在1994年,这次修正将贝叶斯网络带到第三层级,使其能够应对反事实问题。这些进展值得我们在下一章进行更全面的讨论。在此,我想说明的主要观点是:概率能将我们对静态世界的信念进行编码,而因果论则告诉我们,当世界被改变时,无论改变是通过干预还是通过想象实现的,概率是否会发生改变以及如何改变。
来源:CSDN
作者:SimonJ120
链接:https://blog.csdn.net/ximen120/article/details/104850607