当前位置: 首页 > 新闻 > 信息荟萃
编号:6461
为什么:关于因果关系的新科学+mobi+epub.pdf
http://www.100md.com 2020年12月9日
第1页
第8页
第16页
第22页
第33页
第370页

    参见附件(8519KB,436页)。

     为什么:关于因果关系的新科学,人工智能领域的**专家朱迪亚·珀尔及其同事领导的因果关系革命突破多年的迷雾,厘清了知识的本质,确立了因果关系研究在科学探索中的核心地位。

    内容简介

    而因果关系科学真正重要的应用则体现在人工智能领域。作者在本书中回答的核心问题是:如何让智能机器像人一样思考?换言之,“强人工智能”可以实现吗?借助因果关系之梯的三个层级逐步深入地揭示因果推理的本质,并据此构建出相应的自动化处理工具和数学分析范式,作者给出了一个肯定的答案。作者认为,今天为我们所熟知的大部分机器学习技术,都建基于相关关系,而非因果关系。要实现强人工智能,乃至将智能机器转变为具有道德意识的有机体,我们就必须让机器学会问“为什么”,也就是要让机器学会因果推理,理解因果关系。或许,这正是我们能对准备接管我们未来生活的智能机器所做的*有意义的工作

    作者简介

    朱迪亚珀尓(Judea Pearl)

    现加州大学洛杉矶分校计算机科学教授,“贝叶斯网络”之父,2011年因创立因果推理演算法获得图灵奖,同时也是美国国家科学院院士,IEEE智能系统名人堂第一批10位入选者之一。目前已出版3部关于因果关系科学的经典著作,分别为《启发法》 (1984)、《智能系统中的概率推理》(1988)和《因果论:模型、论证、推理》(2009)。曾获得过多项科学荣誉,包括认知科学领域的鲁梅哈特奖、物理学及技术领域的富兰克林奖章以及科学哲学领域的拉卡托斯奖。

    达纳?麦肯齐(Dana Mackenzie)

    普林斯顿大学数学博士,自由科学记者,知名科普作家,著有《无言的宇宙》等作品,其学术论文多次收录于《科学》《新科学家》《科学美国》《探索》等重量级期刊。

    精彩书评

    “你是否曾经对相关关系和因果关系的问题感到疑惑?这部内容精彩的著作对此问题给出了一个富有启发性的答案,且读来妙趣横生。”

    ——丹尼尔·卡尼曼,诺贝尔经济学奖得主,《思考,快与慢》作者

    “在过去的30年间,珀尔所取得的成就为人工智能领域的进步提供了理论基础……他重新定义了‘思维机器’这一术语。”

    ——温顿·瑟夫,“互联网之父”之一,谷歌副总裁兼首席互联网专家,2004年图灵奖获得者

    “如果因果关系不等于相关关系,那它是什么?感谢朱迪亚·珀尔划时代的研究成果,我们现在对这一问题有了精确的答案。如果你想要理解世界的运行方式,那么这本引入入胜、充满阅读乐趣的著作就是一个很好的起点。”

    ——佩德罗·多明戈斯,华盛顿大学计算机科学教授,《**算法》作者

    “朱迪亚·珀尔一直是人工智能革命的心脏和灵魂,更广义地说,他是计算机科学革命的心脏和灵魂。”

    ——埃里克·霍维茨,微软研究实验室主任兼常务董事

    “如果把一个学科的疆域比喻为一个不规则多边形,那么多边形的所有顶点就定义了这个学科的边界。这本书的内容代表人工智能学科在因果推理方面的一个‘顶点’。突破性创新必然发生在所有‘顶点’划定的学科边界之外,而‘热点’则往往在边界之内。不了解‘顶点’,就难以展开突破性创新。”

    ——陈小平,中国科学技术大学机器人实验室主任

    “尤瓦尔·赫拉利在《人类简史》中指出,人类进化史上的**次认知革命以发展出“想象不存在的事物”的能力为标志,《为什么》一书则更进一步提出,正是在这一能力的基础之上,人类发展出了因果思维。从原始部落组织狩猎行动,到孟德尔的基因遗传特征分析,从吸烟是否致癌的争辩到强人工智能是否可能实现的大讨论,无一不需要因果思维的指引。”

    ——罗振宇,得到App创始人

    “真正的人工智能必须拥有什么能力?珀尔认为,要实现人工智能,就必须让机器具备因果推断能力。珀尔只手推动了人工智能领域的因果革命,面向大众读者推出《为什么》一书,这是一部关于人工智能与因果推断的科普之作,也是一部哲学与科学交相辉映之作。珀尔将技术与思想融为一体,系统阐述了因果关系之梯的三个层级。毫无疑问,该书将和《自私的基因》一样成为我们这个时代的经典之作。”

    ——梅剑华,山西大学哲学社会学院教授,现代外国哲学学会理事

    “人类本能地想要寻找事物之间的因果关系,却长久地陷于迷雾之中。珀尔的《为什么》和卡尼曼的《思考,快与慢》一样,也是石破天惊、开辟鸿蒙的巨作,这本书介绍了新兴的因果推断科学,直达人工智能学科的前沿。阅读这本书,不仅能拓宽你的思维广度,而且能增加你的思维维度。”

    ——-何帆,上海交通大学安泰经济与管理学院教授,《变量》作者

    “颇具启发性……珀尔教授在《为什么》一书中将其对于发现因果关系这一新科学的喜悦以及对于他的学生和同事所做工作的自豪感完全体现了出来……这本书不仅为广大读者们上了关于科学思想发展史的宝贵一课,也为相关领域的从业人士提供了判断大数据是否能够给出有效解释的概念性工具。”

    ——《纽约时报》

    “因果关系是科学界和医学界争论*激烈、*难证明的命题之一。这本书将引领你真正开始思考因果关系,因为它适用于解决我们当今时代的诸多问题,包括吸烟究竟是否会导致癌症,胆固醇水平与心脏病的关系,等等。两位作者细致入微地讲述了这些案例的来龙去脉,实在精彩。”

    ——“科学星期五”,**科学媒体

    “‘相关关系不等于因果关系。’这一科学禁令已经为社会带来了严重的不良后果……朱迪亚·珀尔提出了一个革命性的数学解决方案……生物学、医学、社会科学和人工智能领域都因此获得了长足的发展。”

    ——《自然》杂志

    现实的蓝图

    当今时代,读者们一定都听过诸如“知识"“信息”智能"数据”等术语,有不少人可能会对它们之间的差异以及它们是如何相互作用的感到一头雾水。而现在,我提议引入另一个术语-"因果模型"。我知道,读者们可能会认为这样做只会增加困惑。

    不,并不会!事实上,因果模型将科学、知识、数据这些晦涩的概念纳入了一个具体的、有意义的背景框架,让我们得以看到三者是如何相互协作以解答棘手的科学问题的。图0.1展示了一个“因果推断引擎"的蓝图,此引擎将帮助未来的人工智能进行因果推理。更重要的是,它不仅仅是一张关于未来的蓝图,也是一份指南,用于指导我们发现在当今的科学应用中,因果模型是如何发挥作用的,以及它们与数据之间的相互作用是怎样的。

    为什么:关于因果关系的新科学+mobi+epub截图

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者为什么

    [美]朱迪亚·珀尔

    [美]达纳·麦肯齐 著

    江生 于华 译

    中信出版集团

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者目录

    推荐序

    前言

    导言:思维胜于数据

    第一章 因果关系之梯

    第二章 从海盗到豚鼠:因果推断的起源

    第三章 从证据到因:当贝叶斯牧师遇见福尔摩斯先生

    第四章 混杂和去混杂:或者,消灭潜伏变量

    第五章 烟雾缭绕的争论:消除迷雾,澄清事实

    第六章 大量的悖论!

    第七章 超越统计调整:征服干预之峰

    第八章 反事实:探索关于假如的世界

    第九章 中介:寻找隐藏的作用机制

    第十章 大数据,人工智能和大问题

    致谢

    参考文献

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者版权页

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者谨以此书献给露丝

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者推荐序

    了解因果关系科学,从珀尔的《为什么》

    开始

    珀尔教授一生致力于因果关系科学及其在人工智能方面领域的应

    用,这本科普著作是他毕生思想的沉淀,其中他以平实的话语介绍了因

    果推断的理论建构,每段文字都浸透着他对因果关系科学的热情。珀尔

    教授不仅学问做得好,还执着地追求真理,深入地反省自我,勇敢地阐

    述思想,在这个堆积术语、追逐名利的学术大氛围里,珀尔教授孤单的

    身影显得尤为意味深长。

    为什么要写这本书?在此之前,珀尔教授已经出版过三部因果关系

    科学的专著,读者群仅限于数据分析或者人工智能的研究者,影响范围

    很窄。这本书则是这些专著的科普版,其面向更广泛的读者群体,着重

    阐述思想而非拘泥于数学细节。对渴望了解因果推断的人们来说,它既

    是因果关系科学的入门书,又是关于这门学问从萌发到蓬勃发展的一部

    简史,其中不乏对当前的人工智能发展现状的反思和对未来人工智能发

    展方向的探索。正如作者所期待的,这场因果革命将带给人们对强人工

    智能更深刻的理解。

    统计学的传统教育讳忌讨论因果,权威的统计学家曾言:“……从

    未见过一种关于因果的数学语言,也从未发现过它的好处。”对此,珀

    尔在本书中的讨论与评述可谓良药苦口。很惭愧,笔者在北大讲授概率

    统计、机器学习、贝叶斯数据分析等一些与人工智能相关的课程时,也

    未曾谈及因果关系科学,更从未主动地去突破这种因果禁忌。

    这部关于因果关系科学的科普著作如同为我们开启了一扇窗,让我

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者们看到了更广阔的天地。笔者甚至觉得,此书比珀尔的三部因果关系科

    学专著都要好,理论之争的来龙去脉,学术江湖的恩怨情仇,正道沧桑

    的愤世嫉俗,授业解惑的苦口婆心,黎明曙光的呼之欲出……都由作者

    在此书中娓娓道来。对于读者而言,阅读本书就像亲历一次冒险之旅,整个过程充满了惊奇与兴奋、怅然若失与无限憧憬。

    珀尔的《为什么》是笔者所知道的目前已出版的唯一一部因果关系

    科学方面的科普著作,作者在其中深入浅出地把因果关系科学的理论框

    架及其发展脉络展现给了读者。值得一提的是,那些曾经令人备感困惑

    的悖论作为经典统计学中的未解之谜,最终也经由因果关系分析而拨云

    见日,笼罩在其上的迷雾也随之烟消云散了。水落石出后,因果推断显

    得如此自然,就仿佛一切本该如此。对于每一位想了解因果关系科学的

    读者来说,以《为什么》为起点就意味着你踏上了一条捷径,在理解此

    书的基础上阅读因果关系科学方面的专业著作,你的收获将会更大。

    虽然以科普读物为定位,作者仍然雄心勃勃地将这本书的英文书名

    确定为“The Book of Why”。(大凡以“The Book of……”为书名的作品大

    多在某一领域意义重大,例如,《易经》的英文书名为“The Book of

    Change”,《诗经》的英文译名则为“The Book of Songs”。)这样一本

    重量级的科普读物,即便是对于一位专门从事人工智能或机器学习方面

    的研究的学者而言,如果其以前从未接触过因果推断,那么在初次阅读

    时他也未必能完全掌握书中的内容,因此这本书对于没有专业背景的普

    通读者的阅读难度可想而知。对于没有概率统计基础的读者来说,笔者

    的阅读建议是略过数学细节,着重抓住内容大意;而对于有一定概率统

    计基础的读者来说,笔者认为在阅读时一定不能放过正文中的数学精

    髓,这本书中的数学公式不多不少,刚好自圆其说。

    在人人接触人工智能的今天,各种学说、思潮充斥于媒体,铺天盖

    地的科技快餐也让人应接不暇。昨天刚得报一个突破,今天就听说一场

    革命,人们在良莠不齐的信息中逐渐迷失了方向。1971年图灵奖得

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者主、“人工智能”概念的提出者约翰·麦卡锡教授曾说过:“不符合数学

    的,都是胡言乱语。”按照这个标准,现今的人工智能理论又有多少是

    真正有价值的呢?珀尔教授在这本新书中提出的因果关系视角可谓一股

    清流。古人云:“博学之,审问之,慎思之,明辨之,笃行之。”此话正

    合此书精神,与读者共勉。

    《为什么》第一译者 江生

    2019年5月于美国,旧金山湾区

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者前言

    大约20年前,在为我的书《因果论》(Causality,2000)作序时,我

    发表了一段颇为大胆的评论,以致朋友们都劝我低调行事。“因果论经

    历了一次重大转变,”我写道,“从一个笼罩着神秘色彩的概念转变为一

    个具有明确语义和逻辑基础的数学对象。悖论和争议得以解决,模棱两

    可的概念得以阐明,那些依赖于因果信息、长期被认为是形而上的或无

    法解决的实际问题,现在也可以借助初等数学加以解决了。简言之,因

    果论已经完成了数学化。”

    如今读到这段话,我自觉当时还是有些短视了。我所描述的“转

    变”被证明是一场改变了诸多科学理念的“革命”,现在,很多人称之

    为“因果革命”,而它在学术圈激起的波澜正蔓延至教育和应用领域。我

    相信,眼下是向更多读者分享它的大好时机。

    我在这本书中力图完成一个三位一体的使命:首先,用非数学的语

    言阐述因果革命的知识内涵,说明它将怎样影响我们的生活和未来。其

    次,分享在解决重要的因果问题时,我们的科学家前辈走过的英勇征

    程,无论成败,这些故事都值得讲述。

    最后,回溯因果革命在人工智能领域的发源地,目的是向你介绍如

    何开发出用我们的母语——因果语言进行交流的机器人。新一代机器人

    应该能够向我们解释事情为何发生,为何机器人以它们选择的某种方式

    做出反应,以及大自然为何以这样而非那样的方式运作。一个更加雄心

    勃勃的目标是,它们也应该能够让我们进一步认识人类自身:我们的思

    维为什么以这样的方式运行,以及理性思考原因和结果、信任和遗憾、目的和责任究竟意味着什么。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者在我书写各种公式时,我很清楚我的读者是谁。但是当我为大众写

    作时,情况就不一样了——对我来说这是一次全新的冒险。这种新的体

    验很奇特,甚至可以说是我生命中令我收获最大的一场自我教育之旅。

    我需要用读者的语言组织思路,猜测读者的背景、可能提出的问题和给

    出的反应,这比我在写作此书之前对所有那些公式的探索都更能加深我

    对因果论的理解。

    为此,我将永远感激你,我的读者。我希望你能与我一样迫不及待

    地去寻求答案。

    朱迪亚·珀尔

    洛杉矶,2017年10月

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者导言:思维胜于数据

    每一门蒸蒸日上的科学都是在其符号系统的基础上繁荣发展起来

    的。

    ——奥古斯都·德·摩根(1864)

    本书将要讲述的故事会围绕一门科学展开,这门科学改变了我们区

    分事实与虚构的方式,但目前,它仍处于大众的视野之外。这门新科学

    非常重要,已经影响到了日常生活的种种重要的方面,并且还有可能进

    一步扩大影响范围,覆盖从新药开发到经济政策制定,从教育和机器技

    术到枪支管制乃至全球变暖等重大问题的探索和解决。值得注意的是,尽管这些问题涉猎的领域广泛多元且完全不具可比性,但这门新科学仍

    然成功地将它们全部纳入一个统一的框架,这在20年前是根本不可能实

    现的。

    这门新科学并没有一个时髦的名字,和我的许多同事一样,我简单

    地称之为“因果推断”。它本身也并不是什么高科技。因果推断力图模拟

    的理想技术就存在于我们人类自身的意识之中。数万年前,人类开始意

    识到某些事会导致其他事的发生,并且改变前者就会导致后者的改变。

    没有其他物种领悟到了这一点,更别说达到我们所理解的这种程度。由

    这一发现,人类这一物种创造出了有组织的社会,继而建立了乡村和城

    镇,直至创建了我们今天所享有的科技文明。所有这一切都源于我们的

    祖先提出了这样一个简单的问题:为什么?

    因果推断正是关于这个问题的严肃思考。它假设人类大脑是大自然

    有史以来为处理因果知识而设计出的最先进的工具。我们的大脑存储了

    海量的因果知识,而在数据的辅助下,我们可以利用这些知识解决当代

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者社会所面临的最紧迫的问题。一个更宏伟的目标是,一旦我们真正理解

    了因果思维背后的逻辑,我们就可以在现代计算机上模拟它,进而创造

    出一个“人工科学家”。这个智能机器人将会为我们发现未知的现象,解

    开悬而未决的科学之谜,设计新的实验,并不断从环境中提取更多的因

    果知识。

    但在冒险推测未来发展之前,了解迄今为止因果推断或因果关系这

    门科学所取得的成就至关重要。我们将深入探讨它如何改变了几乎所有

    依赖数据信息的学科中研究者的思维模式,以及它将如何改变我们的生

    活。

    这门新科学解决了以下这些看似简单明了的问题:

    ·一种特定的疗法在预防某类疾病方面的效果如何?

    ·是新税法的颁布还是层出不穷的广告推销活动导致了销售额的增

    长?

    ·由肥胖引发的医疗保健成本增长的总体占比为何?

    ·雇用记录能否证明雇主实施了涉及性别歧视的招聘政策?

    ·我打算辞掉工作。我究竟该不该这么做?

    这些问题的共同点在于它们都与因果关系有关,我们可以通过诸

    如“预防”“导致”“由……引发”“证明”“该不该”这样的词语轻易识别出它

    们。这些词在日常生活用语中很常见,我们的社会也一直在不断提出这

    样的问题并寻求答案。然而,就在不久之前,我们甚至还无法在科学的

    范围内找到途径明确地表述这些问题,更别说回答它们了。

    到目前为止,因果推断对人类最重要的贡献就是让这个科学盲点变

    成了历史。这门新科学催生出了一种简单的数学语言,用以表达我们已

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者知和欲知的因果关系。以数学形式表达因果关系的能力让我们得以开发

    出许多强大的、条理化的方法,将我们的知识与数据结合起来,并最终

    回答出如上述那5个涉及因果关系的问题。

    过去的25年里,我有幸成为参与这一科学发展进程的一员。在公众

    的视野之外,我曾目睹这门新科学在学生宿舍和研究实验室中崭露头

    角,也曾听到过在严肃的科学会议中它的突破性进展所引发的共鸣。眼

    下,随着我们进入强人工智能时代,越来越多的人开始鼓吹大数据和深

    度学习[1]

    的无尽可能性,这使我越发感觉到,向读者展示这门新科学正

    在进行的大胆探索,及其对于数据科学以及人类在21世纪的生活可能造

    成的诸多影响,是恰逢其时且激动人心的。

    我知道,当听到我把这些成就描述为一门“新科学”时,你可能会心

    存疑虑。你甚至可能会问,为什么科学家没有在更早的时间就开始这样

    做?比如在古罗马诗人维吉尔首次宣称“幸运儿乃是能理解众事原委之

    人”(公元前29年)的时候,或者,在现代统计学的奠基人弗朗西斯·高

    尔顿和卡尔·皮尔逊首次发现人口统计数据可以揭示一些科学问题的答

    案的时候。在这些关键性的时间节点上,他们很遗憾地与因果关系失之

    交臂,这背后的曲折故事我将在本书有关因果推断的历史渊源的章节中

    一一道来。在我看来,阻碍因果推断这一科学诞生的最大障碍,是我们

    用以提出因果问题的词汇和我们用以交流科学理论的传统词汇之间的鸿

    沟。

    为了说明这一鸿沟的深度,不妨设想一下科学家在尝试表达一些明

    显的因果关系时所面临的困难——举个例子,气压计读数B可以用来表

    示实际的大气压P。我们可以轻而易举地用方程式来表示这种关系,B=kP,其中k是某个比例常数。如今,代数规则允许我们以多种形式书

    写这个方程,例如,P=Bk,k=BP,或者B–kP=0。它们意义相同,即

    如果知道方程中的三个量中的任意两个,那么第三个量就是确定的。字

    母k、B或P三者中的任意一个在数学上都没有凌驾于其他两个之上的特

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者权。那么,我们怎样才能表达这个确凿无疑的事实,即是大气压导致了

    气压计读数的变化,而不是反过来?倘若连这一事实都无法表达,我们

    又怎能奢望去表达其他许多无法用数学公式来表达的因果推断,例如公

    鸡打鸣不会导致太阳升起?

    我的大学教授们就没能做到这件事,也从没有为此抱怨过。我敢打

    赌,你们的大学教授中也没人研究过这个问题。现在,我们已经明白原

    因为何了:他们从未见识过一种关于因果的数学语言,也从未发现到它

    的好处。这种语言的发展被好几代科学家漠视,其实质是一种科学的衰

    败。众所周知,按动开关按钮会导致一盏灯的打开或关闭,夏日午后的

    闷热空气会促使当地冰激凌店的销售额增加。那么,为什么科学家们没

    有像用公式表达光学、力学或几何学的基本法则那样,用公式去捕捉这

    些显而易见的事实?为什么他们容忍这些事实在原始的直觉中凝滞,而

    不去运用那些促使其他科学分支走向繁荣和成熟的数学工具呢?

    答案部分在于,科学工具的开发是为了满足科学需要。正因为开

    关、冰激凌和气压计这类问题我们处理起来驾轻就熟,所以用特殊的数

    学工具来解决它们的意愿始终不够强烈。但随着人类求知欲的不断增

    强,以及社会现实开始要求人们讨论在复杂的法律、商业、医疗等领域

    的决策情境中出现的因果问题,我们终于发现我们缺少一门成熟的科学

    所应提供的用于回答这些问题的工具和原理。

    这种迟来的觉醒在科学中并不少见。例如,直到大约400年前,人

    们还满足于以本能来应对日常生活中的不确定性,从过马路到冒险打一

    架都包括在内。后来,赌徒们发明了复杂的赌博游戏,他们得以通过精

    心的设计来欺骗我们做出糟糕的选择。直到这时,布莱斯·帕斯卡

    (1654)、皮埃尔·德·费马(1654)和克里斯蒂安·惠更斯(1657)这样

    的数学家才发现有必要建立一门今天我们称之为概率论的数学科学分

    支。同样,只有当保险机构开始要求准确估算人寿年金保险的时候,爱

    德蒙·哈雷(1693)和亚伯拉罕·棣莫弗(1725)这样的数学家才开始关

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者注死亡率统计数据,并据此计算出了人的预期寿命。与此相似,正是天

    文学家对天体运动精确预测的要求促使雅格布·伯努利、皮埃尔–西蒙·拉

    普拉斯和卡尔·弗里德里希·高斯建立了误差理论,让我们得以从噪声中

    提取信号。这些方法和理论都是今天统计学得以建立的基础。

    具有讽刺意味的是,对因果关系理论的需求正是在统计学产生的那

    一刻浮出水面的。事实上,现代统计学的创立正源自因果问题——高尔

    顿和皮尔逊提出了一个关于遗传的因果问题,并独具匠心地尝试用跨代

    数据来解答它。遗憾的是,这一努力失败了,他们没有停下来问为什

    么,反而声称这些问题是禁区,转而去发展另一项刚刚兴起、不涉及因

    果关系的事业——统计学。

    这是科学史上的一个关键时刻。给因果问题配备一套专属语言的机

    会眼看就要被成功捕捉并转化为现实,却被白白浪费掉了。在接下来的

    几年里,这些问题被宣布为“非科学”,被迫转入地下。尽管遗传学家休

    厄尔·赖特(1889—1988)为此做出了艰苦卓绝的努力,但因果词汇仍

    然被科学界禁用了半个多世纪。我们知道,禁止言论就意味着禁止了思

    想,同时也扼杀了与此相关的原则、方法和工具。

    哪怕不从事科学研究,你也能见证这一禁律的存在。在统计学基础

    课程中,每个学生都会很快学会念叨“相关关系不等于因果关系”这句

    话。此话的确颇有道理!公鸡打鸣与日出高度相关,但它显然不是日出

    的原因。

    遗憾的是,统计学盲目迷恋这种常识性的观察结论。它告诉我们,相关关系不等于因果关系,但并没有告诉我们因果关系是什么。在统计

    学教科书的索引里查找“因果”这个词是徒劳的。统计学不允许学生们说

    X是Y的原因[2]

    ,只允许他们说X与Y“相关”或“存在关联”。

    这一禁律也潜移默化地让人们认同了处理因果问题的数学工具毫无

    用武之地这一结论,与此同时,统计学唯一关注的就是如何总结数据,更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者而不关注如何解释数据。一个了不起的例外是20世纪20年代由遗传学家

    休厄尔·赖特发明的路径分析(path analysis),它是本书所集中讨论和

    使用的一种关键方法的直接原型。然而,统计学及其相关学科严重低估

    了路径分析,使其在萌芽状态历经了数十年的压制。直至20世纪80年

    代,这迈向因果关系科学的第一步仍然是科学界唯一的一步。统计学的

    其他分支,以及那些依赖统计学工具的学科仍然停留在禁令时代,错误

    地相信所有科学问题的答案都藏于数据之中,有待巧妙的数据挖掘手段

    将其揭示出来。

    今天,这种以数据为中心的观念仍然阴魂不散。我们生活在一个相

    信大数据能够解决所有问题的时代。大学中“数据科学”方面的课程激

    增,在涉足“数据经济”的公司中,“数据科学家”享有极高的工作待遇。

    然而,我希望本书最终能说服你相信这一点:数据远非万能。数据可以

    告诉你服药的病人比不服药的病人康复得更快,却不能告诉你原因何

    在。也许,那些服药的人选择吃这种药只是因为他们支付得起,即使不

    服用这种药,他们照样能恢复得这么快。

    在科学和商业领域,仅凭数据不足以解决问题的情况一再发生。尽

    管或多或少地意识到了其局限所在,但多数热衷于大数据的人仍然选择

    盲目地继续追捧以数据为中心的问题解决方式,仿佛我们仍活在因果禁

    令时代。

    正如我刚才所说的,在过去的30年里,情况发生了戏剧性的变化。

    如今,感谢那些设计精巧的因果模型,当代科学家得以着手解决那些一

    度被认为是不可能解决的甚至是超出了科学探索范围的问题。例如,仅

    在100年前,人们还认为“吸烟是否危害健康”这一问题是非科学的。仅

    仅是在研究论文中提及“因”或“果”这样的词都会在任何稍有名气的统计

    期刊上引发强烈的批判。

    甚至就在20年前,询问一个统计学家诸如“是阿司匹林治愈了我的

    头痛吗”这样的问题还会被视为在问他是否相信巫术。引用我的一位备

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者受尊敬的同事的话,讨论这种问题“与其说是科学探索,不如说是鸡尾

    酒会上的八卦闲谈”。但今天,流行病学家、社会学家、计算机科学家

    以及一些开明的经济学家和统计学家开始频繁地提出这样的问题,并能

    够借助具有高度精确性的数学工具作答。对我来说,这种改变就是一场

    革命。我斗胆称之为“因果革命”,是因为这场科学剧变真正接纳了我们

    人类理解因果知识的认知天赋,而不再拒之于科学大门之外。

    因果革命不是在真空中产生的;它背后有数学工具上的发展作为支

    撑,这种数学工具最恰当的名称应该是“因果关系演算法”。借助这种工

    具,我们得以解答一些有关因果关系的最棘手的问题。能向公众展示这

    一演算法实在令我兴奋不已,这不仅是因为它拥有跌宕起伏的发展史,更是因为我真心期待未来某天它能在某些人那里发挥出超出我的想象的

    潜力……也许就出自本书读者之手。

    因果关系演算法由两种语言组成:其一为因果图(causal

    diagrams),用以表达我们已知的事物,其二为类似代数的符号语言,用以表达我们想知道的事物。因果图是由简单的点和箭头组成的图,它

    们能被用于概括现有的某些科学知识。点代表了目标量,我们称之

    为“变量”,箭头代表这些变量之间已知或疑似存在的因果关系,即哪个

    变量“听从于”哪个变量。这些因果图非常容易绘制、理解和使用,读者

    将在书中看到许多此类因果图的示例。这么说吧,如果你会使用基于单

    向街道地图的导航系统,你就一定可以理解因果图,继而就可以独自解

    决本书导言中提出的那些关于因果关系的问题。

    虽然因果图是本书选择使用的主要工具,也是我过去35年的研究主

    题,但它并不是唯一可用的因果模型。有些科学家(比如计量经济学

    家)喜欢使用数学方程;另一些研究者(比如纯统计学家)则更倾向于

    借助一组假设来描述问题,这些假设表象化地概括了因果图的关系结

    构。但不管使用哪种语言,因果模型都应该描述,哪怕是定性地描述数

    据的生成过程,换句话说,就是那些在环境中控制并塑造数据生成的因

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者果力量。

    与图表式的“知识语言”并存的还有一种符号式的“问题语言”,它被

    用于表述我们想要回答的问题。例如,如果我们感兴趣的是药物(D)

    对病人生存期(L)的影响,那么我们的问题可以用符号写成:

    P(L|do(D))。换句话说,如果一个身体状况具有足够代表性的病人

    服用了这种药,那么他在L年内存活的概率(P)是多少?这句话所描述

    的就是被流行病学家称为干预(intervention)或处理(treatment)的概

    念,其对应于我们在临床试验中所测量的内容。在许多情况下,我们可

    能还希望对P(L│do(D))和P(L|do(not-D))进行比较,后者描

    述的是拒绝接受相应处理(服药)的病人,也称“对照组”病人的情况。

    其中,do算子表明了我们正在进行主动干预而非被动观察,这一概念是

    经典统计学不可能涉及的。

    在这里,我们必须调用一个干预算子do(D)来确保观察到的病人

    存活期L的变化能完全归因于药物本身,而没有混杂其他影响寿命长短

    的因素。如果我们不进行干预,而是让病人自己决定是否服用该药物,那么其他因素就可能会影响病人的决定,而服药和未服药的两组病人的

    存活期差异也将无法再被仅仅归因于药物。例如,假设只有疾病发展到

    末期的病人服用了这种药,那么这些人的情况就显然不同于那些不服药

    的病人,两组的比较结果实际上反映的是其病情的严重程度,而非药物

    的影响。相比之下,随机地指示一些病人服用药物或不服用药物,而不

    考虑先决条件如何,则可以去除两组病人之间原有的差异,提供有效的

    比较结果。

    在数学上,我们把自愿服药的病人的生存期L的观测频率记作

    P(L|D),这就是统计学教科书中常用的条件概率。这个公式表示生存

    期L的概率(P)是以观察到病人服用药物D为条件的。注意P(L|D)与

    P(L|do(D))完全不同。观察到(seeing)和进行干预(doing)有本

    质的区别,它解释了我们不认为气压计读数下降是风暴来临的原因。观

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者察到气压计读数下降意味着风暴来临的概率增加了,但人为迫使气压计

    读数下降对风暴来临的概率并不会产生影响。

    对观察和干预的混淆成为悖论之源,对此本书将展开详细的讨论。

    缺少P(L|do(D)),而完全由P(L|D)统治的世界将是十分荒诞的。

    在这个世界中,病人不去就诊就能减少人们患重病的概率,城市解雇消

    防员就能减少火灾的发生,医生会向男性患者和女性患者推荐药物,但

    不向性别保密的患者推荐药物,诸如此类的例子还有很多。而令人难以

    置信的是,就在不到30年前,科学正是在这样一个不存在do算子的世界

    里运行的。

    因果革命最重要的成果之一就是解释了如何在不实际实施干预的情

    况下预测干预的效果。如果我们没有首先定义do算子以便提出正确的问

    题,其次设计出一种在不需要真正实施干预行动的条件下模拟干预行动

    的方法,那么我们就永远不可能取得这一成就。

    当我们感兴趣的科学问题涉及反思性的思考时,我们通常会诉诸另

    一种类型的表达形式,这种表达形式是因果推断科学独有的,我们称之

    为“反事实”(counterfactual)。例如,假设乔在服用了药物D一个月后

    死亡,那么我们现在关注的问题就是这种药物是否导致了他的死亡。为

    了回答这个问题,我们需要想象这样一种情况:假如乔在即将服药时改

    变了主意,他现在会活着吗?

    再强调一遍,经典统计学只关注总结数据,因此它甚至无法提供一

    种语言让我们提出上面那个问题。因果推断则不仅提供了一种表达符

    号,更重要的是,它还提供了一种解决方案。这使得我们在预测干预效

    果时,在多数情况下能够借助一种算法来模拟人类的反思性思考,通过

    将我们对观测世界的了解输入算法系统,其将输出有关反事实世界的答

    案。可以说,这种“反事实的算法化”正是因果革命另一项宝贵的成果。

    反事实推理涉及假设分析(what-ifs),这可能会使一些读者质疑

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者其科学性。事实上,经验观察永远无法证实或反驳这些问题的答案。然

    而,人类一直在对哪些事可能发生或哪些事可能已经发生做出极可靠

    的、可重复的判断。例如,我们都明白,即使某天早晨公鸡没有打鸣,太阳也会照常升起。这一共识源于这样一种事实:反事实并非异想天开

    之物,而是反映了现实世界运行模式的特有结构。共享同一因果模型的

    两个人也将共享所有的反事实判断。

    反事实是道德行为和科学思想的基石。回溯自己过去的行为以及设

    想其他可能情景的能力是自由意志和社会责任的基础。反事实的算法化

    使“思维机器”(thinking machine)习得这种人类特有的能力,并掌握这

    种目前仍为人类所独有的思考世界的方式成为可能。

    在上段提到“思维机器”这个词是我有意而为的。我是以一名浸淫人

    工智能领域多年的计算机科学家的身份涉足这门新科学的,我的研究背

    景使我在进行因果推断方面的研究时能够使用一种该领域的大多数研究

    者并不具备的视角。首先,在人工智能的世界里,只有当你能够教会机

    器人理解某个课题时,你才算真正理解了它。这就是为何你会在本书看

    到我反复强调符号、语言、词汇和语法。我痴迷于这样的思考:是否可

    以用一种业已存在的语言来表达某个论断,以及我们如何判断一个论断

    是否与其他一些论断相一致。我们可以看到,仅仅是遵循科学语言的语

    法进行话语实践就能让我们掌握大量的知识,这实在令人惊喜。我对语

    言的强调也源于一个坚定的信念,即语言会塑造我们的思想。你无法回

    答一个你提不出来的问题,你也无法提出一个你的语言不能描述的问

    题。作为一名哲学和计算机科学的学生,我之所以被因果推断吸引,最

    关键的因素就是渴望获得那种亲眼见证一门被边缘化的科学语言促使一

    门科学从诞生走向成熟这一整个过程所带来的兴奋感。

    我在机器学习方面的背景也给了我研究因果关系的另一个动力。20

    世纪80年代末,我意识到智能机器缺乏对因果关系的理解,这也许是妨

    碍它们发展出相当于人类水平的智能的最大障碍。在本书的最后一章,更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者我将回到我的老本行,带领大家一起探索因果革命对人工智能的影响。

    我坚信强人工智能是一个可实现的目标,也是一个完全无须恐惧的目

    标,因为我们在实现它的过程中纳入了因果关系。因果推理模块将使智

    能机器有能力反思它们的错误,找到自身软件程序中的弱点,并能像一

    个道德实体那样思考和行动,自然地与人类交流它们自己的选择和意

    图。

    现实的蓝图

    当今时代,读者们一定都听过诸如“知识”“信息”“智能”“数据”等术

    语,有不少人可能会对它们之间的差异以及它们是如何相互作用的感到

    一头雾水。而现在,我提议引入另一个术语——“因果模型”。我知道,读者们可能会认为这样做只会增加困惑。

    不,并不会!事实上,因果模型将科学、知识、数据这些晦涩的概

    念纳入了一个具体的、有意义的背景框架,让我们得以看到三者是如何

    相互协作以解答棘手的科学问题的。图0.1展示了一个“因果推断引擎”的

    蓝图,此引擎将帮助未来的人工智能进行因果推理。更重要的是,它不

    仅仅是一张关于未来的蓝图,也是一份指南,用于指导我们发现在当今

    的科学应用中,因果模型是如何发挥作用的,以及它们与数据之间的相

    互作用是怎样的。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者图0.1 “因果推断引擎”能够将数据与因果知识相结合生成目标问题的答案。虚线框不是引擎

    的组成部分,但它是构建引擎的必要基础。箭头也可以从方框4和方框9指向方框1,但在这里为

    简化图示进行了省略。

    因果推断引擎是一种问题处理机器,它接收三种不同的输入——假

    设、问题和数据,并能够产生三种输出。第一种输出是“是否”判断,用

    于判定在现有的因果模型下,假设我们拥有完美的、无限的数据,那么

    给定的问题在理论上是否有解。如果答案为“是”,则接下来推断引擎会

    生成一个被估量。这是一个数学公式,可以被理解为一种能从任何假设

    数据中生成答案的方法,只要这些数据是可获取的。最后,在推断引擎

    接收到数据输入后,它将用上述方法生成一个问题答案的实际估计值,并给出对该估计值的不确定性大小的统计估计。这种不确定性反映了样

    本数据集的代表性以及可能存在的测量误差或数据缺失。

    为深入阐释这个图示的内在逻辑,我给方框贴了1至9的数字标签,以便接下来以“药物D对病人生存期L的影响是什么”这个问题为例进行

    具体分析。

    1.“知识”指的是推理主体(reasoning agent)过去的经验,包

    括过去的观察、以往的行为、接受过的教育和文化习俗等所有被认为与

    目标问题有关的内容。“知识”周围的虚线框表示它仍隐藏在推理主体

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者的思想中,尚未在模型中得到正式表达。

    2.科学研究总是要求我们给出简化的假设,这些假设也就是研究者

    在现有知识的基础上认为有必要明确表述出来的陈述。研究者所拥有的

    大部分知识都隐藏于他的大脑,只有假设能将其公之于世,也只有假设

    才能被嵌入模型。事实上,我们可以从模型中提取出假设,这也使得一

    些逻辑学家得出了这样的结论:模型不过是一组假设而已。而计算机科

    学家对此说法持有异议,他们指出,假设表示方式的不同将导致多方面

    的巨大差异,包括是否能准确地说明假设,是否能从假设中推导出结

    论,乃至是否能根据确凿的证据扩展或修改假设等。

    3.因果模型有多种表现形式,包括因果图、结构方程、逻辑语句

    等。我热衷于为几乎所有的应用场景构建因果图,主要原因就在于它清

    晰易懂,并且可以为我们想问的许多问题提供明确的答案。从构建因果

    图的角度来看,“因果关系”的定义就非常简单了:如果变量Y“听从

    于”变量X,并根据所“听到”的内容决定自己的值,那么变量X就是变

    量Y的一个因。例如,如果我们怀疑一位病人的存活期L“听从于”该病

    人是否服用了药物D,那么我们便可以称D为L的因,并在因果图里绘制

    一个从D到L的箭头。当然,关于D和L之间的关系问题的答案很可能还取

    决于其他变量,因而我们也必须将这些变量及其因果关系在因果图中表

    示出来。(在这里,我们统一用Z来表示其他变量。)

    4.以因果模型的路径来表示的变量之间的听从模式通常会导向数据

    中某种显而易见的模式或相关关系。这些模式可被用于测试模型,因此

    也被称为“可验证的蕴涵”(testable implications)[3]。将“D和L

    之间没有连接路径”翻译成统计学语言,就是“D和L相互独立”,也就

    是说,发现D的存在不会改变L发生的可能性。而如果实际数据与这一推

    断相抵触,那么我们就需要修改模型。此类修改涉及另一个引擎,它从

    方框4和方框7中获取输入,并计算模型的“拟合度”,即数据与模型假

    设的匹配程度。为尽可能简化示意图起见,我没有在图0.1中表示出这

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者个引擎。

    5.向推理引擎提交的问题就是我们希望获得解答的科学问题,这一

    问题必须用因果词汇来表述。例如,我们现在感兴趣的问题是:

    P(L|do(D))是什么?因果革命的主要成就之一就是确保了这一语言

    在科学上容易理解,同时在数学上精确严谨。

    6.被估量“estimand”来自拉丁语,意思是“需要估计的东西”。

    它是我们从数据中估算出来的统计量。一旦这个量被估算出来,我们便

    可以用它来合理地表示问题的答案。虽然被估量的表现形式是一个概率

    公式,如P(L|D,Z)×P(Z),但实际上它是一种方法,可以让我们

    根据我们所掌握的数据类型回答因果问题(前提是推断引擎证实了这种

    数据类型就是我们需要的)。

    重要的是要认识到,与传统的统计学所提供的估计方法不同,在当

    前的因果模型下,无论我们收集到多少数据,有些问题可能仍然无法得

    到解答。例如,如果我们的模型显示D和L都依赖于第三变量Z(比如疾

    病的发展阶段),并且,如果我们没有任何方法可以测量Z的值,那么

    问题P(L|do(D))就无法得到解答。在这种情况下,收集数据完全就

    是浪费时间。相反,我们需要做的是回过头完善模型,具体方式则是输

    入新的科学知识,使我们可以估计Z的值,或者简化假设(注意,此处

    存在犯错的风险),例如假设Z对D的影响是可以忽略不计的。

    7.数据可以被视作填充被估量的原料。这里我们一定要认识到,数

    据本身不具备表述因果关系的能力。数据告诉我们的只是数量信息,如

    P(L|D)或P(L|D,Z)的值。而被估量则能够告诉我们如何将这些统

    计量转化为一个表达式。基于模型假设,该表达式在逻辑上等价于我们

    所要回答的因果问题,比说P(L|do(D))。

    请注意,被估量这个概念以及图0.1顶部的所有概念在统计分析的

    传统方法中都是不存在的。在传统的统计方法中,被估量就等同于有待

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者解决的问题。例如,如果我们对存活期为L的人群中服用过药物D的病人

    的比例感兴趣,那么我们可以将这个问题简记为P(D|L)。该表达式的

    值也就是我们的被估量。这一表达式已经确切地说明了数据中的哪个概

    率有待被估计,而并不涉及任何因果知识。鉴于此,一些统计学家至今

    仍然难以理解为何有些知识游离于统计学之外,以及为何只靠数据不能

    弥补科学知识的欠缺。

    8.现在,你已经得到了一个新鲜出炉的估计值。不过,它只是一个

    近似值,其原因涉及关于数据的另一个真相:数据永远是从理论上无限

    的总体中抽取的有限样本。在我们所讨论的这个例子中,数据样本由我

    们筛选出来进行研究的病人组成。即使这种筛选是随机的,我们也无法

    避免根据样本测量的概率无法代表整个总体的相应概率的可能性。幸运

    的是,依靠机器学习领域所提供的先进技术,统计学科为我们提供了很

    多方法来应对这种不确定性,这些方法包括最大似然估计、倾向评分、置信区间、显著性检验等。

    9.最后,如果我们的模型是正确的且数据是充分的,那么我们就获

    得了这个待解决的因果问题的答案,比如“药物D使糖尿病患者Z的生存

    期L增加了30%,误差±20%。”啊哈!现在,这一答案将被添加到我们

    的科学知识(方框 1)中。而如果这一答案与我们的预期不符,则很可

    能说明我们需要对因果模型做一些改进(方框3)。

    这个流程图乍看起来很复杂,因而你可能会怀疑它是否确有必要。

    事实上,在日常生活中,我们总能用某种方法做出一些因果判断,而与

    此同时并没有意识到自己经历了如此复杂的推断过程,当然也不会诉诸

    计算概率和比例的数学工具。我们的因果直觉通常足以让我们应付日常

    生活乃至职业生活中的不确定性。但是如果我们想教一个笨拙的机器人

    借助因果思维来思考问题,或者如果我们正试图推动无法依靠直觉来指

    引的前沿科学的发展,那么这一经过精心设计的推断流程就很有必要

    了。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者我特别想强调数据在上述过程中发挥的作用。首先,请注意,我们

    是在完成了以下步骤之后才收集的数据:根据假设确定了因果模型,提

    出了我们想要解决的科学问题,推导出被估量。这与上面提到的传统统

    计方法形成了鲜明对比,后者甚至没有用到因果模型。

    但是,当今科学界对因果关系的合理推论提出了新的挑战。尽管科

    学的快速发展提高了人们对因果模型必要性的认识,许多人工智能领域

    的研究者仍然想跳过构建因果模型或识别出已有的因果模型这一难度较

    大的步骤,只依赖数据解决所有的认知难题。他们希望在因果问题出现

    时,数据本身就能指引他们找到正确的答案——当然,这种想法通常来

    说都是隐秘不宣的。

    对此趋势,我曾直言不讳地公开表示质疑,因为我知道,对于因果

    关系方面的知识来说,数据没有任何发言权。例如,有关行动或干预结

    果的信息根本无法从原始数据中获得,这些信息只能从对照试验操作中

    收集。相比之下,如果拥有一个因果模型,我们就可以在大部分情况下

    从未经干预处理的数据中预测干预的结果了。

    当我们试图回答反事实问题,比如“假如我们采取了相反的行动会

    发生什么”时,因果模型的重要性就更加引人注目了。我们将非常详细

    地讨论反事实,因为对任何人工智能来说,反事实问题都是最具挑战性

    的问题。这类问题也是推动人类认知力和想象力发展的核心,其中前者

    使我们成为人类,后者使科学成为可能。原因通过机制传递效果,因此

    我们还会解释为何关于这种机制的问题,以“为什么”为典型,实际上是

    一个经过伪装的反事实问题。如果我们想让机器人回答“为什么”这样的

    问题,或者只是试图让它们理解此类问题的意义,那么我们就必须用因

    果模型武装它们,并教它们学会如何回答反事实问题,做法就像图0.1

    所展示的那样。

    因果模型所具备而数据挖掘和深度学习所缺乏的另一个优势就是适

    应性。注意在图0.1中,被估量是在我们真正检查数据的特性之前仅仅

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者根据因果模型计算出来的,这就使得因果推断引擎适应性极强,因为无

    论变量之间的数值关系如何,被估量都能适用于与定性模型适配的数

    据。

    为了说明这种适应性为什么重要,我们下面将该引擎与学习主体

    (learning agent)进行比较。在本例中,我们将学习主体设定为人,但

    在其他情况下,学习主体也可能是一个深度学习算法,或者是一个使用

    深度学习算法、想要纯粹从数据中获得知识的人。通过观察许多服用药

    物D的患者的存活期L,某研究者能够预测出某个具有Z特征的病人存活

    L年的概率。现在,假设她被调职到位于城市另一地区的医院,而那里

    的人口总体特征(饮食、卫生、工作习惯)与原来的地区有所不同。即

    使这些新特性仅仅改变了以前她所记录的变量之间的数值关系,她仍不

    得不重新自我训练,再次从头学习新的预测函数。这就是深度学习程序

    所能做的:将函数与数据拟合。而如果该研究者掌握了药物的作用机

    制,并且新地区的因果模型结构仍与原来保持一致,那么她在以往的训

    练中获得的被估量就依然有效,可被应用于新数据,产生一个新的关于

    特定总体的预测函数。

    通过“因果透镜”,许多科学问题都会变得有所不同,我很高兴自己

    有机会研究这个透镜。过去的25年里,新见解和新工具赋予这一透镜越

    来越强大的功能。我希望并相信本书的读者也将分享我的喜悦。因此,我想预告一下本书即将呈现的亮点内容,以此结束导言。

    本书的第一章将观察、干预和反事实这三个台阶组合成因果关系之

    梯(ladder of causation),这是本书的核心隐喻。它将向你揭示利用因

    果图(我们主要的建模工具)进行推理的基本原理,同时引导你一步步

    成为一名精通因果推理的专家。事实上,在读过本书后,你将远远超过

    几代数据科学家,因为他们曾试图通过一个模型盲(model-blind)[4]

    的

    透镜解释数据,完全忽略了因果关系之梯所阐明的特质。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者本书的第二章将讲述一个匪夷所思的故事:统计学科是如何让自己

    陷入了因果蒙昧的黑暗,以及这对所有依赖数据的科学产生了怎样深刻

    的影响。我会在这一章讲述遗传学家休厄尔·赖特的故事,他是本书中

    的一位大英雄,他在20世纪20年代绘制出了世界上第一张因果图,多年

    来他是少数几个敢于认真对待因果论的科学家之一。

    本书的第三章讲述的是一个同样奇妙的故事:我是如何通过对人工

    智能的研究,特别是对贝叶斯网络的研究,皈依了因果论。贝叶斯网络

    是让计算机得以在“灰色地带”进行思考的第一个工具,有段时期,我曾

    坚信它掌握着开启人工智能大门的钥匙。而到了20世纪80年代末,我终

    于确信自己错了,本章讲述的正是我从贝叶斯倡导者变身为“叛教者”的

    整段旅程。不过,贝叶斯网络仍然是人工智能领域的一个非常重要的工

    具,其涵盖了因果图的大部分数学基础。除了对贝叶斯法则和贝叶斯推

    理方法所做的浅显的、以因果关系为梳理逻辑的介绍外,第三章还将为

    读者提供一些贝叶斯网络的应用实例。

    本书的第四章讲述的是统计学对因果推断的主要贡献:随机对照试

    验(randomized controlled trial,简称RCT)。从因果的角度来看,随机对

    照试验是一个进行人为干预的工具,用以解答P(L|do(D))问题,可

    以说这就是该工具的本质特征。随机对照试验的主要目的是将目标变量

    (比如D和L)与其他变量(Z)分离,因为如果不进行分离,则变量

    (Z)就会对二者产生影响。如何消除这种潜在变量带来的扭曲或“混

    杂”在近百年来一直未曾得到妥善解决。而本章将引导读者使用一种极

    其简单的方法来解决这个常见的混杂问题。这种方法就是在因果图中进

    行路径跟踪,你在10分钟之内便能掌握这种方法。

    本书的第五章将讲述因果论发展史乃至科学史上的一个重要时刻,当时,统计学家纠结于“吸烟是否会导致肺癌”这一问题。由于无法使用

    他们最喜欢的工具——随机对照试验,他们在是否接受某一方的结论上

    始终难以达成一致,甚至对于如何理解这个问题也一直存在分歧。关于

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者吸烟的争论将因果论的重要性推到了风口浪尖。可以说,数百万人因吸

    烟而丧生或折寿,正是因为科学家没有适当的语言或方法论来回答这个

    因果问题。

    在第五章的严肃话题之后,我希望本书的第六章会让读者享受一些

    轻松时刻。这章的主题是悖论,包括蒙提·霍尔悖论、辛普森悖论、伯

    克森悖论等。此类经典悖论的确可以当作脑筋急转弯来消遣,但它们也

    有严肃的一面,尤其是当你从因果的角度来分析它们的时候。事实上,几乎所有这些悖论都体现了某种与因果直觉有关的冲突,从而也揭示出

    了这种因果直觉的内在构造。这些悖论是一种警示,用以提醒科学家们

    人类的直觉是根植于因果的,而不是根植于统计和逻辑的。我相信读者

    会从这些有趣的古老悖论中得到“柳暗花明又一村”的体验。

    终于,本书的第七章到第九章将带领读者踏上因果关系之梯激动人

    心的攀登之旅。我们会从第七章的干预问题入手,讲述我和我的学生们

    如何历经20年的努力,实现do类型问题解答的自动化。我们成功了。我

    还将在本章解释“因果推断引擎”的本质,以及它如何能够产生“是否”问

    题的答案及图0.1中的被估量。对该引擎的深入分析将让读者学会如何

    在因果图中发现某些模式,这些模式将生成因果问题的直接答案。我将

    这些模式称为后门调整、前门调整和工具变量,它们是研究者在科学实

    践中进行因果推断的主要工具。

    本书的第八章将通过讨论反事实把你带到因果关系之梯的顶端。反

    事实被视为因果论的基本组成部分这一认识至少要追溯到1748年,当时

    苏格兰哲学家大卫·休谟提出了这样一个多少有些别扭的因果定义:“我

    们可以给一个原因下定义说,它是先行于、接近于另一个对象的一个对

    象,而且在这里,凡与前一个对象类似的一切对象都和与后一个对象类

    似的那些对象处在类似的先行关系和接近关系中。或者,换言之,假如

    没有前一个对象,那么后一个对象就不可能存在。”大卫·刘易斯,普林

    斯顿大学的哲学家(于2001年去世),曾指出休谟实际上给出的是两个

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者而非一个定义。第一个是规则性定义(因后面通常跟着果),第二个是

    反事实定义(“假如没有前一个对象……”)。尽管哲学家和科学家以往

    更多地将注意力集中于规则性定义,但刘易斯指出,反事实定义与人类

    直觉的联系更为紧密:“我们认为因是起重要作用的事物,并且它所引

    起的差异必然就是有它和没它所发生结果之不同。”

    读者将在本章结尾兴奋地发现,我们现在可以越过学术争辩,估算

    出任何反事实问题答案的实际值(或概率),无论这个问题有多复杂。

    其中最有趣的问题就是某个观察到的事件的必要因(necessary cause)

    和充分因(sufficient cause)问题。例如,被告的行为有多大可能是原

    告受伤的必要因?人为因素引起的全球气候变化有多大可能是异常气候

    事件的充分因?

    最后,本书的第九章讨论的主题是中介。在因果图中谈论箭头绘制

    时,你可能会想,如果药物D只是单纯地通过影响血压Z(中介物)来

    影响病人的生存期,那么我们是否仍然要从药物D画一个直接指向生存

    期L的箭头?换言之,D对L的影响是直接的还是间接的?如果两者都

    有,那么我们如何评估它们的相对重要性?这些问题不仅具有重大的科

    学意义,而且具有深刻的实际影响:如果我们了解了药物的作用机理,那么我们或许就可以开发出其他效果相同,但价格更低廉或副作用更少

    的药物。同样,读者将在本章结尾愉快地了解到,这一古老的中介机制

    问题将被简化为一道代数题,而科学家将通过使用因果工具包中的一些

    新工具轻松解决这些问题。

    本书的第十章将通过追溯我本人转向因果研究领域的起始地带领读

    者走向尾声。正是这个问题,即人类智能的自动化(有时也被称为“强

    人工智能”是否可能)引导我开始研究因果关系的。我相信因果推理对

    智能机器至关重要,它可以让智能机器使用我们的语言与我们交流策

    略、实验、解释、理论乃至遗憾、责任、自由意志和义务,并最终让智

    能机器做出自己的道德决策。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者如果能用一句话来概括本书的内容,那就是“你比你的数据更聪

    明”。数据不了解因果,而人类了解。我希望因果推断这门新科学能让

    我们更好地理解我们是如何做到这件事的,因为除了自我模拟,我们没

    有更好的方法来了解人类自身了。与此同时,在计算机时代,这种新的

    理解也有望被应用于增强人类自身的因果直觉,从而让我们更好地读懂

    数据,无论是大数据还是小数据。

    [1] 2019年图灵奖颁给了杰弗里·辛顿、扬·勒昆和约舒亚·本吉奥三人,以表彰他们在深度学

    习(deep learning)上的杰出贡献。——译者注

    [2] 可能存在一个例外情况,就是我们进行了随机对照试验,具体可参见第四章的内容。

    [3] 在命题逻辑和谓词逻辑中,蕴涵这一概念用于描述两个陈述语句集合之间的联系。——

    译者注

    [4] 作者用模型盲来指代对数学或统计建模一窍不通,不懂得利用已有的先验知识和经验来

    形式地刻画变量之间的关系的做法,该词常被用来批评纯粹数据驱动的人工智能或机器学习。

    ——译者注

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者第一章 因果关系之梯

    起初……

    第一次读伊甸园中亚当和夏娃的故事时,我大概六七岁。上帝禁止

    他们吃智慧树的果子,对于这个任性的要求,我和我的同学们一点儿都

    不惊讶,我们觉得神灵肯定有他自己的原因。我们更感兴趣的是这一事

    实:吃了智慧树的果子,他们立即像我们一样有了意识,并意识到了自

    己赤身裸体。

    到了青少年时期,我们的兴趣渐渐转移到了故事的哲学层面(以色

    列的学生每年都要读上好几遍《创世记》)。我们最关注的是,人类获

    得知识的过程不是快乐的,而是痛苦的,伴随着叛逆、内疚和惩罚。有

    人问,放弃伊甸园无忧无虑的生活值得吗?相对于与现代生活相伴相生

    的经济困境、战争和社会不公,我们在知识累积和文明发展的基础上发

    起的农业革命和科学革命值得吗?

    请不要误会,我们不是神创论者,连我们的老师骨子里都是达尔文

    主义者。然而我们知道,《创世记》的写作者实际上是在努力回答他那

    个时代最为紧迫的哲学问题。我们猜测这个故事隐含着智人逐步统治整

    个星球这一真实过程的文化足迹。那么,这一快速的、伴随着激烈演进

    和超级进化的过程,其具体步骤是怎样的呢?

    我对这个问题的兴趣在早年担任工程教授的职业生涯中曾有所消

    退,但在20世纪90年代又重新燃起。当时,我正在写《因果论》这本

    书,刚刚与“因果关系之梯”不期而遇。

    在第100次读《创世记》时,我注意到了一个多年来一直忽略的细

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者节。上帝发现亚当躲在花园里,便问他:“我禁止你碰那棵树,你是不

    是偷吃了它的果子?”亚当答道:“你所赐给我的与我做伴的女人,她给

    了我树上的果子,我就吃了。”“你都做了什么?”上帝问夏娃。夏娃答

    道:“那蛇欺骗了我,我就吃了。”

    众所周知,这种推卸责任的伎俩对全知全能的上帝不起作用,因此

    他们被逐出了伊甸园。但这里有一点是我以前一直忽略的:上帝问的

    是“什么”,他们回答的却是“为什么”。上帝询问事实,他们回答理由。

    而且,两人都深信,列举原因可以以某种方式美化他们的行为。他们是

    从哪里得到这样的想法的?

    对我来说,这一细节有三个深刻的含义:首先,人类在进化早期就

    意识到世界并非由枯燥的事实(我们今天可能称之为数据)堆砌而成;

    相反,这些事实是通过错综复杂的因果关系网络融合在一起的。其次,因果解释而非枯燥的事实构成了我们大部分的知识,它应该成为机器智

    能的基石。最后,我们从数据处理者向因果解释者的过渡不是渐进的,而是一次“大跃进”,借助的是某种奇异的外部推力。这与我在因果关系

    之梯上的理论观察完全吻合:没有哪台机器可以从原始数据中获得解

    释。对数据的解释需要借助外部推力。

    我们希望从进化科学中求证这些信息,我们当然不可能找到智慧

    树,但我们仍能发现一个无法解释的重大转变。我们知道,人类历经了

    500万到600万年的时间才从类人猿祖先进化而来,这种渐进的进化过程

    对地球生命来说很寻常,但是在大约5万年前,不寻常的事情发生了,有人将其称为认知革命(Cognitive Revolution),另外一些人则(带一

    点儿讽刺意味的)将其称为“大跃进”。在这场巨变中,人类以神奇的速

    度获得了改变环境和提升自身能力的能力。

    打个比方,在数百万年里,老鹰和猫头鹰进化出了非凡的视力,然

    而它们显然没能发明出眼镜、显微镜、望远镜或夜视镜。而人类在几个

    世纪内就创造了这些奇迹。我把这种现象称为“超进化加速”。有的读者

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者可能不赞成我将进化与工程学这两种风马牛不相及的事物进行对比,但

    这正是我想强调的关键。进化赋予了我们设计自身生命的能力,而没有

    赋予老鹰和猫头鹰同样的能力。那么问题又来了——为什么?人类突然

    获得的那种老鹰和猫头鹰所不具备的计算能力到底是什么?

    学者们提出过很多理论,其中一种理论与因果关系密切相关。历史

    学家尤瓦尔·赫拉利在他的《人类简史》一书中指出,人类祖先想象不

    存在之物的能力是一切的关键,正是这种能力让他们得以交流得更加顺

    畅。在获得这种能力之前,他们只相信自己的直系亲属或者本部落的

    人。而此后,信任就因共同的幻想(例如信仰无形但可想象的神,信仰

    来世,或者信仰领袖的神性)和期许而延伸到了更大的群体。无论你是

    否同意赫拉利的理论,想象和因果关系之间的联系都是不言而喻的。除

    非你能想象出事情的结果,否则寻问事情的原因就是徒劳的。反过来

    说,你不能声称是夏娃导致你吃了树上的苹果,除非你可以想象一个世

    界,在那个世界里,情况与事实相反,她没有给你那个苹果。

    回到我们的智人祖先,新掌握的因果想象力使他们能够通过一种被

    我们称为“规划”的复杂过程更有效地完成许多事情。设想一下,某个部

    落正在为狩猎长毛象做准备。他们怎样做才能成功?必须承认,我的长

    毛象狩猎技巧很生疏,但作为一个研究思维机器的学者,我明白这样一

    件事:一个思维主体(计算机、穴居人或教授)要完成如此大型的任

    务,必须进行预先规划——确定召集猎人的人数,根据风力条件估计应

    该从哪个方向靠近长毛象,简言之,通过想象和比较几个狩猎策略的结

    果来完成任务。要做到这一点,思维主体必须具备一个可供参考并且可

    以自主调整的关于狩猎现实的心理模型。

    图1.1展示了我们建构这一心理模型的方式。图中的每个点都代表

    一种成功狩猎的影响因素或原因。请注意,这里的影响因素是多重的,没有哪个是决定性的。也就是说,我们无法确定更多的猎人是否会导致

    捕猎成功,或者下雨是否会导致捕猎失败,但这些因素的确会改变成功

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者的概率。

    图1.1 成功狩猎长毛象的已知影响因素

    心理模型是施展想象的舞台。它使我们能够通过对模型局部的修改

    来试验不同的情景。比如,在猎人心理模型的某处可能存在一个子程

    序,用于评估猎人数量的影响。在想要增加猎人数量的时候,他们无须

    从头开始评估其他因素,只需对模型做局部的修改,将“猎人=8”换

    成“猎人=9”,就可以重估成功的概率。这种模块性是因果模型的一个关

    键特征。

    当然,我并不是说早期人类真的绘制出了这种图画模型。但当我们

    想要让计算机来模拟人类思维,或者试图解决陌生的科学问题时,绘制

    一个清晰的由点和箭头组成的图示是非常有用的。这些因果图就是我在

    导言中所描述的“因果推理引擎”的计算核心。

    因果关系的三个层级

    到目前为止,我的叙述可能会让大家觉得,我们将关于这个世界的

    知识组织起来融入因果关系网络的能力是一种一体化的能力,并且是可

    以一下子学会或领悟的。事实上,我在机器学习方面的研究经历告诉

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者我,因果关系的学习者必须熟练掌握至少三种不同层级的认知能力:观

    察能力(seeing)、行动能力(doing)和想象能力(imagining)。

    第一层级是观察能力,具体而言是指发现环境中的规律的能力。在

    认知革命发生之前,这种能力为许多动物和早期人类所共有。第二层级

    是行动能力,涉及预测对环境进行刻意改变后的结果,并根据预测结果

    选择行为方案以催生出自己期待的结果。只有少数物种表现出了具备此

    种能力的特征。对工具的使用(前提是使用是有意图的,而不是偶然的

    或模仿前人)就可以视作达到第二层级的标志。然而,即使是工具的使

    用者也不一定掌握有关工具的“理论”,工具理论能够告诉他们为什么这

    种工具有效,以及如果工具无效该怎么做。为掌握这种理论,你需要登

    上想象力这一层级。第三层级至关重要,它让我们为发起农业领域和科

    学领域的更深层次的革命做好了准备,使得我们人类对于地球的改造能

    力发生了骤变。

    我无法证明这一点,但是我可以在数学上证明这三个层级有着根本

    的区别,每一级所释放出的力量都是其下一级无法企及的。我用来证明

    这一观点的框架要追溯到人工智能的先驱阿兰·图灵,他曾提出将认知

    系统按照其所能回答的问题进行分类。在我们谈论因果论时,这一框架

    或分类法是卓有成效的,因为它绕过了关于因果论究竟为何物的漫长而

    徒劳的讨论,聚焦于具体的可回答的问题,即“因果推理主体可以做什

    么”,或者更准确地说,相较于不具备因果模型的生物,拥有因果模型

    的生物能推算出什么前者推算不出的东西?

    图灵寻找的是一种二元分类——人类或非人类,而我们的分类则包

    含三个层级,分别对应逐级复杂的因果问题。使用这组判断标准,我们

    便可以将问题的三个层级组合成因果关系之梯(见图1.2)。因果关系

    之梯是本书的一个重要隐喻,我们将会多次回顾它。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者图1.2 因果关系之梯的每一层级都有一种代表性生物。大多数动物和当前的学习机器都处于第

    一层级,它们通过关联进行学习。像早期人类这样的工具使用者则处于第二层级,前提是他们

    是有计划地采取行动而非仅靠模仿行事。我们也可以通过实验来习得干预的效果,这大概也是

    婴儿获取大多数因果知识的方式。反事实的学习者处于阶梯的顶级,他们可以想象并不存在的

    世界,并推测观察到的现象的原因为何(资料来源:马雅·哈雷尔绘图)

    现在让我们花点儿时间来详细研究因果关系之梯的每一层级。处于

    第一层级的是关联,在这个层级中我们通过观察寻找规律。一只猫头鹰

    观察到一只老鼠在活动,便开始推测老鼠下一刻可能出现的位置,这只

    猫头鹰所做的就是通过观察寻找规律。计算机围棋程序在研究了包含数

    百万围棋棋谱的数据库后,便可以计算出哪些走法胜算较高,它所做的

    也是通过观察寻找规律。如果观察到某一事件改变了观察到另一事件的

    可能性,我们便说这一事件与另一事件相关联。

    因果关系之梯的第一层级要求我们基于被动观察做出预测。其典型

    问题是:“如果我观察到……会怎样?”例如,一家百货公司的销售经理

    可能会问:“购买牙膏的顾客同时购买牙线的可能性有多大?”此类问题

    正是统计学的安身立命之本,统计学家主要通过收集和分析数据给出答

    案。在这个例子中,问题可以这样解答:首先采集所有顾客购物行为的

    数据,然后筛选出购买牙膏的顾客,计算他们当中购买牙线的人数比

    例。这个比例也称作“条件概率”,用于测算(针对大数据的)“买牙

    膏”和“买牙线”两种行为之间的关联程度。用符号表示可以写作P(牙线|

    牙膏),其中P代表概率,竖线意为“假设你观察到”。

    为了缩小数据的体量,确定变量之间的关联,统计学家开发了很多

    复杂的方法。本书将会经常提到的一种典型的关联度量方法,即“相关

    分析”或“回归分析”,其具体操作是将一条直线拟合到数据点集中,然

    后确定这条直线的斜率。有些关联可能有明显的因果解释,有些可能没

    有。但无论如何,统计学本身并不能告诉我们,牙膏或牙线哪个是因,哪个是果。从销售经理的角度看,这件事也许并不重要——好的预测无

    须好的解释,就像猫头鹰不明白老鼠为何总是从A点跑到B点,但这不

    改变它仍然是一个好猎手的事实。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者我把当今的人工智能置于因果关系之梯的最底层,与猫头鹰相提并

    论,对此有些读者可能会感到很吃惊。近些年来,我们好像每天都会听

    闻机器学习系统的新发展和新成果——无人驾驶汽车、语言识别系统,特别是近几年来广受推崇的深度学习算法(或称深度神经网络)。为什

    么它们会处于因果关系之梯的最底层呢?

    深度学习的成果确实举世瞩目、令人惊叹。然而,它的成功主要告

    诉我们的是之前我们认为困难的问题或任务实际上并不难,而并没有解

    决真正的难题,这些难题仍在阻碍着类人智能机器的实现。其结果是,公众误以为“强人工智能”(像人一样思考的机器)的问世指日可待,甚

    至可能已经到来,而事实远非如此。我完全赞同纽约大学神经系统科学

    家盖里·马库斯的观点,他最近在《纽约时报》上写道:人工智能领

    域“喷涌出大量的微发现”,这些发现也许是不错的新素材,但很遗憾,机器仍与类人认知相去甚远。我在加州大学洛杉矶分校计算机科学系的

    同事阿德南·达尔维奇也曾发表过一篇题为“是人类水平的智能还是动物

    般的能力?”的论文,并在其中表明了自己的立场。我认为该论文恰如

    其分地回答了作者在标题中提出的这一问题。强人工智能这一目标是制

    造出拥有类人智能的机器,让它们能与人类交流并指导人类的探索方

    向。而深度学习只是让机器具备了高超的能力,而非智能。这种差异是

    巨大的,原因就在于后者缺少现实模型。

    与30年前一样,当前的机器学习程序(包括那些应用深度神经网络

    的程序)几乎仍然完全是在关联模式下运行的。它们由一系列观察结果

    驱动,致力于拟合出一个函数,就像统计学家试图用点集拟合出一条直

    线一样。深度神经网络为拟合函数的复杂性增加了更多的层次,但其拟

    合过程仍然由原始数据驱动。被拟合的数据越来越多,拟合的精度不断

    提高,但该过程始终未能从我们先前提到的那种“超进化加速”中获益。

    例如,如果无人驾驶汽车的程序设计者想让汽车在新情况下做出不同的

    反应,那么他就必须明确地在程序中添加这些新反应的描述代码。机器

    是不会自己弄明白手里拿着一瓶威士忌的行人可能对鸣笛做出的不同反

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者应的。处于因果关系之梯最底层的任何运作系统都不可避免地缺乏这种

    灵活性和适应性。

    当我们开始改变世界的时候,我们就迈上了因果关系之梯的更高一

    层台阶。这一层级的一个典型问题是:“如果我们把牙膏的价格翻倍,牙线的销售额将会怎么样?”这类问题处于因果关系之梯的第二层级,提出及回答这类问题要求我们掌握一种脱离于数据的新知识,即干预。

    干预比关联更高级,因为它不仅涉及被动观察,还涉及主动改变现

    状。例如,观察到烟雾和主动制造烟雾,二者所表明的“某处着火”这件

    事的可能性是完全不同的。无论数据集有多大或者神经网络有多深,只

    要使用的是被动收集的数据,我们就无法回答有关干预的问题。从统计

    学中学到的任何方法都不足以让我们明确表述类似“如果价格翻倍将会

    发生什么”这样简单的问题,更别说回答它们了。认识到这一点让许多

    科学家挫败不已。我之所以对此心知肚明,是因为我曾多次帮助这些科

    学家踏上因果关系之梯的更高层级。

    为什么我们不能仅通过观察来回答牙线的问题呢?为什么不直接进

    入存有历史购买信息的庞大数据库,看看在牙膏价格翻倍的情况下实际

    发生了什么呢?原因在于,在以往的情况中,涨价可能出于完全不同的

    原因,例如产品供不应求,其他商店也不得不涨价等。但现在,我们并

    不关注行情如何,只想通过刻意干预为牙膏设定新价格,因而其带来的

    结果就可能与此前顾客在别处买不到便宜牙膏时的购买行为大相径庭。

    如果你有历史行情数据,也许你可以做出更好的预测……但是,你知道

    你需要什么样的数据吗?你准备如何理清数据中的各种关系?这些正是

    因果推断科学能帮助我们回答的问题。

    预测干预结果的一种非常直接的方法是在严格控制的条件下进行实

    验。像脸书这样的大数据公司深知实验的力量,它们在实践中不断地进

    行各种实验,比如考察页面上的商品排序不同或者给用户设置不同的付

    款期限(甚至不同的价格)会导致用户行为发生怎样的改变。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者更为有趣并且即使在硅谷也鲜为人知的是,即便不进行实验,我们

    有时也能成功地预测干预的效果。例如,销售经理可以研发出一个包括

    市场条件在内的消费者行为模型。就算没能采集到所有因素的相关数

    据,他依然有可能利用充分的关键替代数据进行预测。一个足够强大

    的、准确的因果模型可以让我们利用第一层级(关联)的数据来回答第

    二层级(干预)的问题。没有因果模型,我们就不能从第一层级登上第

    二层级。这就是深度学习系统(只要它们只使用了第一层级的数据而没

    有利用因果模型)永远无法回答干预问题的原因,干预行动据其本意就

    是要打破机器训练的环境规则。

    这些例子说明,因果关系之梯第二层级的典型问题就是:“如果我

    们实施……行动,将会怎样?”也即,如果我们改变环境会发生什么?

    我们把这样的问题记作P(牙线 |do(牙膏)),它所对应的问题是:如

    果对牙膏另行定价,那么在某一价位销售牙线的概率是多少?

    第二层级中的另一个热门问题是:“怎么做?”它与“如果我们实

    施……行动,将会怎样”是同类问题。例如,销售经理可能会告诉我

    们,仓库里现在积压着太多的牙膏。他会问:“我们怎样才能卖掉它

    们?”也就是,我们应该给它们定个什么价?同样,这个问题也与干预

    行动有关,即在我们决定是否实际实施干预行动以及怎样实施干预行动

    之前,我们会尝试在心理层面演示这种干预行动。这就需要我们具备一

    个因果模型。

    在日常生活中,我们一直都在实施干预,尽管我们通常不会使用这

    种一本正经的说法来称呼它。例如,当我们服用阿司匹林试图治疗头痛

    时,我们就是在干预一个变量(人体内阿司匹林的量),以影响另一个

    变量(头痛的状态)。如果我们关于阿司匹林治愈头痛的因果知识是正

    确的,那么我们的“结果”变量的值将会从“头痛”变为“头不痛”。

    虽然关于干预的推理是因果关系之梯中的一个重要步骤,但它仍不

    能回答所有我们感兴趣的问题。我们可能想问,现在我的头已经不痛

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者了,但这是为什么?是因为我吃了阿司匹林吗?是因为我吃的食物吗?

    是因为我听到的好消息吗?正是这些问题将我们带到因果关系之梯的最

    高层,即反事实层级。因为要回答这些问题,我们必须回到过去改变历

    史,问自己:“假如我没有服用过阿司匹林,会发生什么?”世界上没有

    哪个实验可以撤销对一个已接受过治疗的人所进行的治疗,进而比较治

    疗与未治疗两种条件下的结果,所以我们必须引入一种全新的知识。

    反事实与数据之间存在着一种特别棘手的关系,因为数据顾名思义

    就是事实。数据无法告诉我们在反事实或虚构的世界里会发生什么,在

    反事实世界里,观察到的事实被直截了当地否定了。然而,人类的思维

    却能可靠地、重复地进行这种寻求背后解释的推断。当夏娃把“蛇欺骗

    了我”作为她的行动理由时,她就是这么做的。这种能力彻底地区分了

    人类智能与动物智能,以及人类与模型盲版本的人工智能和机器学习。

    你可能会怀疑,对于“假如”(would haves)这种并不存在的世界和

    并未发生的事情,科学能否给出有效的陈述。科学确实能这么做,而且

    一直就是这么做的。举个例子,“在弹性限度内,假如加在这根弹簧上

    的砝码重量是原来的两倍,弹簧伸长的长度也会加倍”(胡克定律),像这样的物理定律就可以被看作反事实断言。当然,这一断言是从诸多

    研究者在数千个不同场合对数百根弹簧进行的实验中推导出来的,得到

    了大量试验性(第二层级)证据的支持。然而,一旦被奉为“定律”,物

    理学家就把它解释为一种函数关系,自此,这种函数关系就在假设中的

    砝码重量值下支配着某根特定的弹簧。所有这些不同的世界,其中砝码

    重量是x磅[1]

    ,弹簧长度是Lx英寸[2]

    ,都被视为客观可知且同时有效

    的,哪怕它们之中只有一个是真实存在的世界。

    回到牙膏的例子,针对这个例子,最高层级的问题是:“假如我们

    把牙膏的价格提高一倍,则之前买了牙膏的顾客仍然选择购买的概率是

    多少?”在这个问题中,我们所做的就是将真实的世界(在真实的世

    界,我们知道顾客以当前的价格购买了牙膏)和虚构的世界(在虚构的

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者世界,牙膏价格是当前的2倍)进行对比。

    因果模型可用于回答此类反事实问题,建构因果模型所带来的回报

    是巨大的:找出犯错的原因,我们之后就能采取正确的改进措施;找出

    一种疗法对某些人有效而对其他人无效的原因,我们就能据此开发出一

    种全新的疗法;“假如当时发生的事情与实际不同,那会怎样?”对这个

    问题的回答让我们得以从历史和他人的经验中获取经验教训,这是其他

    物种无法做到的。难怪古希腊哲学家德谟克利特(公元前460—前370)

    说:“宁揭一因,胜为波斯王。”

    将反事实置于因果关系之梯的顶层,已经充分表明了我将其视为人

    类意识进化过程的关键时刻。我完全赞同尤瓦尔·赫拉利的观点,即对

    虚构创造物的描述是一种新能力的体现,他称这种新能力的出现为认知

    革命。他所举的代表性实例是狮人雕塑,这座雕塑是在德国西南部的施

    塔德尔洞穴里发现的,目前陈列于乌尔姆博物馆(见图1.3)。狮人雕

    塑的制造时间距今约4万年,它是用长毛象的象牙雕成的半人半狮的虚

    构怪兽。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者图1.3 施塔德尔洞穴的狮人雕塑。已知的最古老的虚构生物(半人半狮)雕塑,其象征着一种

    人类新发展出来的认知能力,即反事实推理能力(资料来源:伊冯·米勒斯拍摄,由位于德国

    乌尔姆的国家文化遗产处巴登—符腾堡乌尔姆博物馆提供)

    我们不知道究竟是谁雕刻了狮人,也不知道他雕刻的目的是什么,但我们知道一点,是解剖学意义上的现代人类创造了它,它的出现标志

    着对先前所有的艺术或工艺品形式的突破。在此之前,人类已经发明了

    成型的工具和具象派艺术,从珠子到长笛到矛头再到马和其他动物的高

    雅雕刻都属此类。但狮人雕塑不同,它的本体是一个只存在于想象中的

    生物。

    自此,人类发展出了一种想象从未存在之物的能力。作为这种能力

    的表现形式,狮人雕塑是所有哲学理论、科学探索和技术创新的雏形。

    从显微镜到飞机再到计算机,这些创造物真正出现在物理世界之前,都

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者曾存在于某个人的想象之中。

    与任何解剖学上的进化一样,这种认知能力的飞跃对我们人类这个

    物种来说意义深远且至关重要。在狮人雕塑制造完成之后的1万年间,其他所有的原始人种(除了地理上被隔绝的弗洛雷斯原始人)都灭绝

    了。人类继续以难以置信的速度改变着自然界,利用我们的想象力生

    存、适应并最终掌控了整个世界。从想象的反事实中,我们获得的独特

    优势是灵活性、反省能力和改善过去行为的能力,更重要的一点是对过

    去和现在的行为承担责任的意愿。古往今来,我们一直受益于反事实推

    理。

    如图1.2所示,因果关系之梯第三层级的典型问题是:“假如我当时

    做了……会怎样?”和“为什么?”两者都涉及观察到的世界与反事实世

    界的比较。仅靠干预实验无法回答这样的问题。如果第一层级对应的是

    观察到的世界,第二层级对应的是一个可被观察的美好新世界,那么第

    三层级对应的就是一个无法被观察的世界(因为它与我们观察到的世界

    截然相反)。为了弥合第三层级与前两个层级之间的差距,我们需要构

    建一个基础性的解释因果过程的模型,这种模型有时被称为“理论”,甚

    至(在构建者极其自信的情况下)可以被称为“自然法则”。简言之,我

    们需要掌握一种理解力,建立一种理论,据此我们就可以预测在尚未经

    历甚至未曾设想过的情况下会发生什么——这显然是所有科学分支的圣

    杯。但因果推断的意义还要更为深远:在掌握了各种法则之后,我们就

    可以有选择地违背它们,以创造出与现实世界相对立的世界。我们将在

    下一节重点介绍这类违背法则的行为。

    迷你图灵测试

    1950年,阿兰·图灵提出了这样一个问题:如果计算机能像人类一

    样思考,这意味着什么?他提出了一个实用的测试,并称之为“模仿游

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者戏”,但没过多久,所有人工智能领域的研究者便都称其为“图灵测

    试”。这个测试可以简单理解为,一个普通人出于实用目的用打字机与

    一台计算机交流,如果他无法判断谈话对象是人还是计算机,那么这台

    计算机就可以被视作一台思维机器。图灵坚信这个测试是可行的。他写

    道:“我相信,在大约50年的时间里,高水准地完成模仿游戏的程序就

    会出现,普通询问者在5分钟的提问时间结束后正确识别对象是否为人

    的概率会低于70%。”

    不过,图灵的预测略有偏差。每年的勒布纳人工智能大赛都致力于

    评选出世界上仿人能力最强的“聊天机器人”,一枚金牌和10万美元将被

    授予成功骗过全部4名裁判,让他们将交流对象误判为人的程序。但截

    至2015年,大赛已举办了25届,仍然没有一个程序能骗过所有裁判,甚

    至骗过哪怕一半的裁判。

    图灵不只提出了“模仿游戏”,还提出了让程序通过测试的策略。他

    问道:“与其试图编写一个模拟成人思维的程序,何不尝试编写一个模

    拟儿童思维的程序?”如果能做到这一点,那么你就可以像教小孩子一

    样教它了。这样一来,很快,大约20年后(考虑到计算机的发展速度,这个时间还可以更短),你就会拥有一个人工智能。“儿童的大脑与我

    们从文具店购买的空白笔记本相差无几,”他写道,“预先设定的机制极

    少,有着大量的空白。”在这一点上,图灵错了:儿童的大脑有着丰富

    的预设机制和预存模板。

    不过,我认为图灵还是说中了一部分事实。在创造出具备孩童智能

    水平的机器人之前,我们可能的确无法成功创造出类人智能,而创造出

    前者的关键要素就是掌握因果关系。

    那么,机器如何才能获得关于因果关系的知识呢?目前,这仍然是

    一项重大挑战,其中无疑会涉及复杂的输入组合。这些输入来自主动实

    验、被动观察和(最关键的)程序员输入,这与儿童所接收的信息输入

    非常相似,他们的输入分别来自进化、父母和他们的同龄人(对应于程

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者序员这个角色)。

    不过,我们可以回答一个略微容易一些的问题:机器(和人)如何

    表示因果知识,才能让自己迅速获得必要的信息,正确回答问题,并如

    同一个三岁的儿童一样对此驾轻就熟呢?事实上,这正是本书所要回答

    的主要问题。

    我称之为“迷你图灵测试”,其主要思路是选择一个简单的故事,用

    某种方式将其编码并输入机器,测试机器能否正确回答人类能够回答的

    与之相关的因果问题。之所以称其为“迷你”,原因有二。首先,该测试

    仅限于考察机器的因果推理能力,而不涉及人类认知能力的其他方面,如视觉和自然语言。其次,我们允许参赛者以任何他们认为便捷的表示

    方法对故事进行编码,这就免除了机器必须依据其自身经验构造故事的

    任务。让智能机器通过这个迷你测试是我毕生的事业——在过去的25年

    里是自觉而为,在那之前则是无意而为。

    显然,在让机器进行迷你图灵测试的准备阶段,表示问题必须优先

    于获取问题。如果缺少表示方法,我们就不知道如何存储信息以供将来

    使用。即使可以让机器人随意操控环境,它们也无法记住以这种方式学

    到的信息,除非我们给机器人配备一个模板来编码这些操作的结果。人

    工智能对认知研究的一个主要贡献就是确立“表示第一,获取第二”的范

    式。通常,在寻求一个好的表示方法的过程中,关于如何获取知识的洞

    见就会自然产生,无论这种洞见是来自数据,还是来自程序员。

    当我介绍迷你图灵测试时,人们常说这种测试可以很容易靠作弊来

    通过。例如,列出一个包含所有可能问题的列表,在机器人的内存中预

    先存储正确的答案,之后让机器人在被提问时从内存中提取答案即可。

    如果现在你的面前有两台机器,一台是简单存储了问题答案列表的机

    器,而另一台是能够依据人类的思考方式回答问题的机器,即能够通过

    理解问题并利用头脑中的因果模型生成答案的机器,那么我们是没有办

    法将二者区分开的(所以围绕该问题有很多争论)。如果作弊是如此容

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者易,那么迷你图灵测试究竟能证明什么呢?

    1980年,哲学家约翰·塞尔以“中文屋”(Chinese Room)论证介绍了

    这种作弊的可能性,以此挑战图灵的说法——伪造智能的能力就相当于

    拥有智能。塞尔的质疑只有一个瑕疵:作弊并不容易——事实上,作弊

    根本就是不可能的。即使只涉及少量变量,可能存在的问题的数量也会

    迅速增长为天文数字。假设我们有10个因果变量,每个变量只取两个值

    (0或1),那么我们可以提出大约3000万个关于这些变量的可能问题,例如:“如果我们看到变量X等于1,而我们让变量Y等于0且变量Z等于

    1,那么结果变量为1的概率是多少?”如果涉及的变量还要更多,且每

    个变量都有两个以上的可能值,那么问题数量的增长可能会超出我们的

    想象。换句话说,塞尔的问题清单需要列出的条目将超过宇宙中原子的

    数量。所以,很显然,简单的问题答案列表永远无法让机器模拟儿童的

    智能,更不用说模拟成人的智能了。

    人类的大脑肯定拥有某种简洁的信息表示方式,同时还拥有某种十

    分有效的程序用以正确解释每个问题,并从存储的信息表示中提取正确

    答案。因此,为了通过迷你图灵测试,我们需要给机器装备同样高效的

    表示信息和提取答案的算法。

    事实上,这种表示不仅存在,而且具有孩童思维般的简洁性,它就

    是因果图。我们此前已经看到一个关于长毛象狩猎成功因素的图例。鉴

    于人们能轻而易举地用点和箭头构成的图来交流知识,我相信我们的大

    脑一定使用了类似的表示方法。但就我们的目的而言,更重要的是让这

    些模型能通过迷你图灵测试,这是目前其他已知的模型都做不到的。让

    我们先看一些例子。

    如图1.4所示,我们假设一个犯人将要被行刑队执行枪决。这件事

    的发生必然会以一连串的事件发生为前提。首先,法院方面要下令处决

    犯人。命令下达到行刑队队长后,他将指示行刑队的士兵(A和B)执

    行枪决。我们假设他们是服从命令的专业枪手,只听命令射击,并且只

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者要其中任何一个枪手开了枪,囚犯都必死无疑。

    图1.4 行刑队例子的因果图(A和B分别代表士兵A和B的行为)

    图1.4所示因果图即概括了我刚才讲的故事。每个未知量(CO,C,A,B,D)都是一个真假(truefalse)变量。例如,D=真,意思是

    犯人已死;D=假,意思是犯人还活着。CO=假,意思是法院的死刑命

    令未签发;CO=真,意思则是死刑命令已签发,以此类推。

    借助这个因果图,我们就可以回答来自因果关系之梯不同层级的因

    果问题了。首先,我们可以回答关联问题(一个事实告诉我们有关另一

    事实的什么信息)。一个可能的问题是,如果犯人死了,那么这是否意

    味着法院已下令处决犯人?我们(或一台计算机)可以通过核查因果

    图,追踪每个箭头背后的规则,并根据标准逻辑得出结论:如果没有行

    刑队队长的命令,两名士兵就不会射击。同样,如果行刑队队长没有接

    到法院的命令,他就不会发出执行枪决的命令。因此,这个问题的答案

    是肯定的。另一个可能的问题是,假设我们发现士兵A射击了,它告诉

    了我们关于B的什么信息?通过追踪箭头,计算机将断定B一定也射击

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者了。(原因在于,如果行刑队队长没有发出射击命令,士兵A就不会射

    击,因此接收到同样命令的士兵B也一定射击了。)即使士兵A的行为

    不是士兵B做出某一行为的原因(因为从A到B没有箭头),该判断依然

    为真。

    沿着因果关系之梯向上攀登,我们可以提出有关干预的问题。如果

    士兵A决定按自己的意愿射击,而不等待队长的命令,情况会怎样?犯

    人会不会死?这个问题其实已经包含矛盾的成分了。我在上一段刚刚告

    诉你士兵A仅在接收到命令时射击,而现在我却问你,如果他在没有接

    到命令的情况下射击会发生什么。如果你像计算机常做的那样,只知道

    根据逻辑规则进行判断,那么这个问题就是毫无意义的。就像20世纪60

    年代科幻剧《星际迷航》中的机器人在此状况下常说的:“这不能计

    算。”

    如果我们希望计算机能理解因果关系,我们就必须教会它如何打破

    规则,让它懂得“观察到某事件”和“使某事件发生”之间的区别。我们需

    要告诉计算机:“无论何时,如果你想使某事发生,那就删除指向该事

    的所有箭头,之后继续根据逻辑规则进行分析,就好像那些箭头从未出

    现过一样。”如此一来,对于这个问题,我们就需要删除所有指向被干

    预变量(A)的箭头,并且还要将该变量手动设置为规定值(真)。这

    种特殊的“外科手术”的基本原理很简单:使某事发生就意味着将它从所

    有其他影响因子中解放出来,并使它受限于唯一的影响因子——能强制

    其发生的那个因子。

    图1.5表示出了根据这个例子生成的因果图。显然,这种干预会不

    可避免地导致犯人的死亡。这就是箭头A到D背后的因果作用。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者图1.5 关于干预的因果推理(士兵A自行决定射击;从C到A的箭头被删除,并且A被赋值为真)

    请注意,这一结论与我们的直觉判断是一致的,即士兵A擅自射击

    将导致犯人死亡,因为“手术”没有改动从A到D的箭头。同时,我们还

    能判断出:B(极有可能)没有开枪,A的决定不会影响模型中任何不

    受A的行为的影响的其他变量。我们有必要重述一次刚才的结论:如果

    我们“看到”A射击,则我们可以下结论——B也射击了。但是如果A自

    行“决定”射击,或者如果我们强制“使”A射击,那么在此种情况下,相

    反的结论才是对的。这就是“观察到”和“实施干预”的区别。只有掌握二

    者差异的计算机才能通过迷你图灵测试。

    需要注意的是,仅凭收集大数据无助于我们登上因果关系之梯去回

    答上面的问题。假设你是一个记者,每天的工作就是记录行刑场中的处

    决情况,那么你的数据会由两种事件组成:要么所有5个变量都为真,要么所有都为假。在未掌握“谁听从于谁”的相关知识的情况下,这种数

    据根本无法让你(或任何机器学习算法)预测“说服枪手A不射击”的结

    果。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者最后,为了说明因果关系之梯的第三层级,我们提出一个反事实问

    题。假设犯人现在已倒地身亡,从这一点我们(借助第一层级的知识)

    可以得出结论:A射击了,B射击了,行刑队队长发出了指令,法院下

    了判决。但是,假如A决定不开枪,犯人是否还活着?这个问题需要我

    们将现实世界和一个与现实世界相矛盾的虚构世界进行比较。在虚构世

    界中,A没有射击,指向A的箭头被去除,这进而又解除了A与C的听命

    关系。现在,我们将A的值设置为假,并让A行动之前的所有其他变量

    的水平与现实世界保持一致。如此一来,这一虚构世界就如图1.6所

    示。

    图1.6 反事实推理(我们观察到犯人已死,据此,我们提出这样一个问题:假如士兵A决定不射

    击,会发生什么?)

    为通过迷你图灵测试,计算机一定会得出这样的结论:在虚构世界

    里犯人也会死,因为B会开枪击毙他。所以,A勇敢改变主意的做法也

    救不了犯人的命。实际上,这正是行刑队存在的一个原因:保证法院命

    令的执行,也为每个枪手个体减轻一些需要担负的责任,枪手可以(在

    一定程度上)问心无愧地说,并非他们的行动导致犯人的死亡,因

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者为“犯人横竖都会死”。

    看起来,我们刚刚像是花了很大一番力气回答了一些答案显而易见

    的小问题。我完全同意你的判断。因果推理对你来说很容易,其原因在

    于你是人类,你曾是一名三岁的儿童,你所拥有的功能神奇的大脑比任

    何动物或计算机都更能理解因果关系。“迷你图灵问题”的重点就是要让

    计算机也能够进行因果推理,而我们能从人类进行因果推断的做法中得

    到启示。如上述三个例子所示,我们必须教会计算机如何有选择地打破

    逻辑规则。计算机不擅长打破规则,这是儿童的强项。(穴居人也很擅

    长,不违背“什么头配什么身体”的规则,他们就不可能创造出狮人雕

    塑。)

    不过,我们最好也不要过于得意于人类的优越性。在许多情境中,人类可能需要花费很大的努力才能找到那个正确的因果结论。例如,某

    些问题可能涉及更多的变量,并且它们很可能并非简单的二元(真

    假)变量。在日常生活中,我们更想预测的可能是如果政府提高最低工

    资标准,则社会失业率会上升多少,而不是预测犯人的死活。这种定量

    的因果推理通常超出了我们的直觉范畴。此外,在行刑队的例子中,我

    们实际上还排除了很多不确定因素,比如,也许行刑队队长在士兵A决

    定开枪后的瞬间下达了命令,或者士兵B的枪卡住了,等等。为了处理

    不确定因素,我们就需要掌握有关此类异常事件发生可能性的信息。

    下面的例子就证明了概率的重要性。这个案例涉及欧洲首次引进天

    花疫苗所引发的大规模公开辩论。出人意料的是,数据显示有更多的人

    死于天花疫苗,而非死于天花。有些人理所当然地利用这些信息辩称,应该禁止人们接种疫苗,而不顾疫苗实际上根除了天花,挽救了许多生

    命的事实。为阐明疫苗的效果,解决争端,让我们来看一组虚拟数据。

    假设100万儿童中有99%接种了疫苗,1%没有接种。对于接种了疫

    苗的儿童来说,一方面,他有1%的可能性出现不良反应,这种不良反

    应有1%的可能性导致儿童死亡。另一方面,这些接种了疫苗的儿童不

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者可能得天花。相对的,对于一个未接种疫苗的儿童来说,他显然不可能

    产生接种后的不良反应,但他有2%的概率得天花。最后,让我们假设

    天花的致死率是20%。

    看到这组虚拟数据,我想你很可能会赞同疫苗接种。因为接种后出

    现不良反应的概率要低于得天花的概率,而天花比接种不良反应更危

    险。但现在让我们仔细分析一下数据。按照假设,在100万个孩子中,99万人接种了疫苗,其中有9900人出现了接种后的不良反应,这之中有

    99人因此死亡。与此同时,那1万个没有接种疫苗的孩子中,有200人得

    了天花,其中的40人死于天花。这样一来,死于疫苗接种不良反应的儿

    童(99人)就多于死于天花的儿童(40人)了。

    因此,对那些举着“疫苗杀人!”的标语,向卫生部游行示威的家

    长,我表示充分地理解。数据似乎恰恰支持了他们的观点——接种疫苗

    确实会造成比天花本身更多的死亡。但逻辑是否也站在他们那一边呢?

    我们应该禁止接种疫苗还是应该把疫苗挽救的生命也考虑在内?图1.7

    展示了此例的因果图。

    图1.7 疫苗接种示例的因果图。疫苗接种是有益还是有害?

    在刚刚的假设中,我们提到过疫苗接种率是99%。现在让我们问一

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者个反事实问题:“假如我们把疫苗接种率设为零会怎样?”利用上述虚拟

    数据中给出的概率,你可以得出如下结论:100万孩子中2万人会得天

    花,4000人会死亡。将反事实世界与现实世界进行比较,我们就可以得

    出真正的结论:不接种疫苗会导致我们多付出3861(4000与139之差)

    个儿童的生命的代价。在此,我们应该感谢反事实的语言[3]

    让我们避免

    了付出如此惨重的代价。

    对学习因果论的学生来说,他们能从这个例子中学到的最重要的知

    识是:构建因果模型不仅仅是画箭头,箭头背后还隐藏着概率。当我们

    绘制一个从X指向Y的箭头时,我们是在暗指,某些概率规则或函数具

    体说明了“如果X发生改变,Y将如何变化”。我们在某些情况下可能知

    道这个规则具体是什么,而在大多数情况下,我们不得不根据数据对这

    个规则进行估计。不过,因果革命最有趣的特点之一就是,在许多情况

    下,我们可以对这些完全不确定的数学细节置之不理。通常情况下,因

    果图自身的结构就足够让我们推测出各种因果关系和反事实关系:简单

    的或复杂的、确定的或概率的、线性的或非线性的。

    从计算的角度来看,我们设计出的这种让机器通过迷你图灵测试的

    方案也很出色。在所有三个例子中,我们都使用了相同的程序:将故事

    转化成因果图,解读问题,执行与既定问题(干预问题或反事实问题)

    相对应的“手术”(如果问题是关联类的,则不需要进行任何“手术”),并使用修改后的因果模型计算答案。并且,每次改变故事的时候,我们

    也不必根据各种新的问题重新训练机器。这一方法具有足够的灵活性,只要我们能绘制出因果图,我们就能解决问题,无论这个问题是关乎长

    毛象狩猎、行刑队执行枪决还是关乎疫苗接种。这正是我们希望因果推

    断引擎具备的特性:一种为人类所独享的灵活性。

    当然,因果图本身没有什么内在的魔力。它之所以如此好用,是因

    为它承载了因果信息,即在构建因果图时,我们会问“谁能直接导致犯

    人死亡”或者“接种疫苗的直接效应是什么”这些问题。如果我们仅仅通

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者过提出关联问题来构建因果图,它就不会为我们提供这些问题的答案

    了。如图1.7所示,如果我们逆转“疫苗接种→天花”中的箭头,我们同样

    可以获得两组数据的关联,但同时我们会错误地断定罹患天花与否本身

    会影响某人是否进行疫苗接种。

    针对这类问题几十年的研究经验使我确信,无论是在认知意义上还

    是在哲学意义上,因果观都比概率观更重要。在理解语言和任何数学运

    算之前,我们就开始学习因果知识了。(研究表明,三岁大的儿童已经

    能够理解整个因果关系之梯的图示。)同样,因果图所蕴含的知识通常

    比由概率分布编码的知识具有更强大的应用潜能。例如,假设随着时代

    改变,出现了一种更安全、更有效的疫苗。同时,由于卫生条件和社会

    经济条件的改善,人们感染天花的危险也减少了。这些变化将对前文提

    到的例子中的绝大部分变量的概率产生极大的影响;但显然,原有的因

    果图结构仍将保持不变。这正是构建因果模型的关键秘诀。此外,一旦

    我们完成了之前的分析工作,并从数据中找到了估算疫苗接种能带来多

    大益处的方法,我们就不必在条件改变时从头开始重复整个分析过程。

    如导言所述,同样的被估量(也就是回答相应问题的方法)将一直有

    效,并且只要因果图不变,该被估量就可以应用于新数据,并为特定问

    题生成新的估计值。我猜想,正是由于具备这种稳健性,人类的直觉才

    以因果关系而非统计关系为组织的核心。

    论概率与因果关系

    对我个人和大部分哲学家、科学家来说,“因果关系不能被简化为

    概率”这个认识来之不易。阐释“因”的含义一直是备受哲学家关注的话

    题之一,从18世纪的大卫·休谟和19世纪的约翰·斯图尔特·密尔,到20世

    纪中叶的汉斯·赖欣巴哈和帕特里克·萨普斯,再到今天的南希·卡特赖

    特、沃尔夫冈·斯普恩和克里斯托弗·希区柯克都曾发表过对于该问题的

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者论述。特别地,从赖欣巴哈和萨普斯开始,哲学家们开始使用“概率提

    高”的概念来定义因果关系:如果X提高了Y的概率,那么我们就说X导

    致了Y。

    这个概念也存在于我们的直觉中,并且根深蒂固。例如,当我们

    说“鲁莽驾驶会导致交通事故”或“你会因为懒惰而挂科”时,我们很清楚

    地知道,前者只是增加了后者发生的可能性,而非必然会让后者发生。

    鉴于此,人们便期望让概率提高准则充当因果关系之梯第一层级和第二

    层级之间的桥梁。然而,正是这种直觉导致了数十年失败的探索。

    阻碍这一探索获得成功的不是这种直觉本身,而是它被形式化表述

    的方式。哲学家几乎无一例外地使用了条件概率来表示“X提高了Y的概

    率”,记作P(Y|X)>P(Y)。你肯定注意到了,这种解释是错的,因

    为“提高”是一个因果概念,意味着X对Y的因果效应,而公式P(Y|X)

    >P(Y)只涉及观察和手段,表示的是“如果我们观察到了X,那么Y的

    概率就提高了”。但是,这种概率提高完全可能是由其他因素造成的,比如Y是X的因,或者其他变量(Z)是它们二者的因——这就是症结所

    在!这一形式表述将哲学家们打回原点,让他们不得不再一次尝试消除

    可能存在的“其他原因”。

    用类似表达式P(Y|X)所表示的概率位于因果关系之梯的第一层

    级,其不能(靠自己)回答第二层级或第三层级的问题。任何试图用看

    似简单的第一层级的概念去“定义”因果关系的做法都必定会失败。这就

    是我在本书中不去定义因果关系的原因:定义追求约简,而约简迫使我

    们不得不降至较低的层级。与此相反,我追求的是一个更具建设性的最

    终方案,其能够解释如何回答因果问题,以及我们究竟需要获取哪些信

    息来回答这些问题。如果这看起来很奇怪,那就想想数学家研究欧氏几

    何所采用的完全相同的方法。在几何书中,你找不到关于“点”和“线”的

    定义。然而,根据欧几里得公理(或者更理想的是,根据欧几里得公理

    的各种现代版本),我们可以回答任何关于点和线的问题。[4]

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者让我们更仔细地研究一下概率提高准则,看看它究竟在哪里遭遇了

    阻碍。X和Y共同的因或称混杂因子(confounder)[5]

    问题,是令哲学家

    最为烦恼的问题之一。如果我们从表面意义上采用概率提高准则,那么

    面对在冰激凌热销的月份里,犯罪的概率也提高了这一事实,我们就必

    然得出冰激凌的热销会导致犯罪的结论。在这个特例中,这一现象实际

    上可以解释为,因为夏天天气炎热,所以冰激凌的销量和犯罪率同时提

    高了。然而,我们依然会有此疑问:是什么样的一般性的哲学准则,可

    以告诉我们犯罪率提升的原因是天气炎热而非冰激凌的热销?

    哲学家努力尝试通过为他们所称的“背景因子”(混杂因子的另一种

    说法)设置限定条件来修复定义,并据此建构了表达式P(Y|X,K=k)

    >P(Y|K=k),其中K代表背景变量。事实上,如果我们把温度作为背

    景变量,那么这个表达式的确适用于冰激凌的例子。例如,如果我们只

    看温度为30℃的日子(K=30),我们就会发现冰激凌的销售和犯罪率

    之间不存在任何残留的关联。只有把30℃的日子和0℃的日子进行比

    较,我们才会产生概率提高的错觉。

    然而,对于“哪些变量要放入背景因子集合K中作为条件”这一问

    题,还没有一个哲学家能够给出一个令人信服的通用答案。原因显而易

    见:混杂也是一个因果概念,因此很难用概率来表示。1983年,南希·

    卡特赖特打破了这一僵局,她利用因果要素丰富了我们关于背景语境的

    描述。她提出,我们应该将所有与结果有“因果关联”的因子都视为条件

    纳入考虑。实际上,她所借用的是因果关系之梯第二层级的概念,因而

    在本质上放弃了仅仅基于概率来定义因的观点。这是一种进步,然而不

    幸的是,该观点在被提出时招致了广泛的批判,被指责为“用因自身来

    定义因”。

    关于K的确切内涵的哲学争论持续了20余年,并最终陷入僵局。事

    实上,我们会在第四章找到那个正确的定义,在此请允许我暂时按下不

    表。目前我能给出的提示是,离开因果图,我们是不可能阐明这个定义

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者的。

    总之,概率因果论总是搁浅于混杂的暗礁。每一次,当概率因果关

    系的拥护者试图用新的船体来修补这艘船时,这艘船都会撞到同一块岩

    石上,再次漏水。换句话说,一旦用条件概率的语言歪曲“概率提高”,即使再多的概率补丁也无法让你登上更高一层的因果关系阶梯。我知道

    这听起来很奇怪,但概率提高这个概念确实不能单纯用概率来表示。

    拯救概率提高这一概念的正确方法是借助do算子来定义:如果

    P(Y|do(X))>P(Y),那么我们就可以说X导致了Y。由于干预是

    第二层级的概念,因此这个定义能够体现概率提高的因果解释,也可以

    让我们借助因果图进行概率推算。换言之,当研究者询问是否

    P(Y|do(X))>P(Y)时,如果我们手头有因果图和数据,我们就能

    够在算法上条理清晰地回答他的问题,从而在概率提高的意义上判断X

    是否为Y的一个因。

    我热衷于关注哲学家对诸如因果关系、归纳法和科学推断逻辑等模

    糊概念的讨论。哲学家的优势在于能够从激烈的科学辩论和数据处理方

    面的现实困扰中解脱出来。相比其他领域的科学家,他们受统计学反因

    果偏见的毒害较少。他们有条件呼吁因果关系这一传统思想的复归,这

    种思想至少可以追溯到亚里士多德时代。谈起因果关系,他们也用不着

    不好意思,或者躲在“关联”标签的背后。

    然而,在努力将因果关系的概念数学化(这本身就是一个值得称道

    的想法)的过程中,哲学家过早地诉诸其所知的唯一一种用于处理不确

    定性的语言,即概率语言。在过去的十多年的大部分时间里,他们都在

    致力于纠正这个大错,但遗憾的是,即便是现在,计量经济学家仍

    以“格兰杰因果关系”(Granger causality)和“向量自相关”(vector

    autocorrelation)之名追随着类似的理念。

    现在我必须坦白一件事:我也曾犯过同样的错误。我并非一直把因

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者果放在第一位,把概率放在第二位。恰恰相反!20世纪80年代初,我开

    始踏足人工智能方面的研究,并认定不确定性正是人工智能缺失的关键

    要素。此外,我坚持不确定性应由概率来表示。因此,正如我将在第三

    章中解释的那样,我创建了一种关于不确定性的推理方法,名为“贝叶

    斯网络”,用于模拟理想化的、去中心化的人类大脑将概率纳入决策的

    方法。贝叶斯网络可以根据我们观察到的某些事实迅速推算出某些其他

    事实为真或为假的概率。不出所料,贝叶斯网络立即在人工智能领域流

    行开来,甚至直至今天仍被视为人工智能在包含不确定性因素的情况下

    进行推理的主导范式。

    虽然贝叶斯网络的不断成功令我欣喜不已,但它并没能弥合人工智

    能和人类智能之间的差距。我相信你现在也能找出那个缺失的要素了

    ——没错,就是因果论。是的,“因果幽灵”无处不在。箭头总是由因指

    向果,并且研究者与实践者常常能注意到,当他们反转了箭头之后,整

    个推断系统就变得无法控制了。但在很大程度上,他们认为这只是一种

    文化上的惯性思维,或者是某种旧思维模式的产物,并不涉及人类智能

    行为的核心层面。

    那时,我是如此陶醉于概率的力量,以至于我认为因果关系只是一

    个从属概念,最多不过是一种便利的思维工具或心理速记法,用以表达

    概率的相关性以及区分相关变量和无关变量。在我1988年的著作《智能

    系统中的概率推理》(Probabilistic Reasoning in Intelligent Systems)

    中,我写道:“因果关系是一种语言,运用这种语言,人们可以有效谈

    论关联关系的某些结构。”如今,这句话令我备感尴尬,因为“关联”显

    然是第一层级的概念。实际上在此书出版时,我在心里已经意识到自己

    错了。对我的计算机科学家同行来说,我的书被视为不确定性下推理的

    圣经,而我自己却变成一个叛教者。

    贝叶斯网络适用于一个所有问题都被简化为概率或者(用本章的术

    语来说就是)变量间的关联程度的世界,它无法自动升级到因果关系之

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者梯的第二层级或第三层级。幸运的是,我们只需要对其进行两次修正就

    可以实现它的升级。第一次是1991年“图—手术”(graph-surgery)概念

    的提出,这一概念使贝叶斯网络能够像处理观察信息一样处理干预信

    息。第二次修正发生在1994年,这次修正将贝叶斯网络带到第三层级,使其能够应对反事实问题。这些进展值得我们在下一章进行更全面的讨

    论。在此,我想说明的主要观点是:概率能将我们对静态世界的信念进

    行编码,而因果论则告诉我们,当世界被改变时,无论改变是通过干预

    还是通过想象实现的,概率是否会发生改变以及如何改变。

    [1] 1磅≈0.45千克。——编者注

    [2] 1英寸≈2.54厘米。——编者注

    [3] 作为补充,反事实还允许我们讨论个别病例中的因果关系:现实是,史密斯先生没有接

    种疫苗,他死于天花。假如史密斯先生接种了疫苗,那么他会怎样?这类问题是个性化医疗的

    根基,我们是无法从第二层级的信息中找到答案的。

    [4] 更精确地说,在几何中“点”和“线”等未定义的术语是基元。因果推理中的基元则是箭头

    所指代的“听从”关系。

    [5] 此概念也可译作“混杂因素”或“混淆因素”,本书将confounder和confounding factor皆译

    为“混杂因子”。——译者注

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者第二章 从海盗到豚鼠:因果推断的起源

    但它(地球)仍在动。

    ——出自伽利略(1564—1642)

    弗朗西斯·高尔顿爵士在皇家学院展示他的“高尔顿板”(Galton board)或称“梅花

    机”(quincunx)。他将这种类似弹珠台的仪器看作对基因特性(如身高)遗传的类比。弹球

    会堆积成一个上边缘为钟形曲线的图案,该曲线与人类身高的分布曲线非常相似。那么,为什

    么人类一代传一代,其身高分布并没有像弹球那样散开?这一难题引领他走向了“向均值回

    归”(regression to the mean)现象的发现。(资料来源:由达科塔·哈尔绘制。)

    近两个世纪以来,英国科学界最经久不衰的仪式之一便是在伦敦的

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者英国皇家学院举办的“周五晚间演讲”。19世纪,很多重大发现都是在这

    个会场上由演讲者首次对外宣布的:1839年,迈克尔·法拉第发表了他

    的摄影原理;1897年,约瑟夫·汤姆逊提出了电子理论;1904年,詹姆

    斯·杜瓦公布了氢液化理论。

    每场演讲会都是一次盛典,毫不夸张地说,演讲会就是把科学当作

    舞台,而台下的观众则是精心打扮(男人必须身着礼服,佩戴黑领带)

    的英国社会上层精英。到了指定的时间,钟声敲响,人们将迎接晚会的

    发言人步入礼堂。依照传统,发言人会省去自我介绍或开场白,直接开

    始演讲。实验和现场演示都是这一壮观场面的重要组成部分。

    1877年2月9日那天晚上的演讲者是弗朗西斯·高尔顿,英国皇家学

    院院士,他是查尔斯·达尔文的大表弟,著名的非洲探险家、指纹学创

    始人,维多利亚时期绅士科学家的典范。高尔顿演讲的题目是“典型的

    遗传规律”。当晚,他的实验仪器是一种奇怪的装置,他称之为“梅花

    机”,现在该装置常被称为“高尔顿板”。一个名为Plinko的类似游戏常出

    现在电视节目《价格猜猜看》中。高尔顿板由一块木板和其上按三角形

    阵列排布的大头针或钉子组成,操作者可以通过顶部的开口塞入小金属

    球。金属球会像弹球那样从上往下逐层弹跳下来,最后落进底部的一排

    插槽中(见章首插图)。对单个金属球来说,向左或向右弹落看上去完

    全是随机的。然而,如果你往高尔顿板里倒入很多小球,一个惊人的规

    律就出现了:在底部堆积的小球的上边缘总是会形成一个近似钟形的曲

    线。在最接近中心的插槽中,小球会堆得高高的,插槽中的球数从中间

    向两侧递减,直至为零。

    这种规律性的图形模式有一个数学解释:单个球下落的整个路径就

    像一系列独立的硬币抛掷的结果一样。小球每撞上一根大头针,其或者

    弹向左边,或者弹向右边,表面上看,它的选择似乎是完全随机的。而

    所有结果之和,即往右弹落的次数与往左弹落的次数之差,则确定了小

    球最终会落于哪个插槽。根据1810年由皮埃尔–西蒙·拉普拉斯证明的中

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者心极限定理[1]

    ,任何此类随机过程,即多次硬币抛掷之总效,都会导向

    相同的概率分布,这种概率分布被称为正态分布(或钟形曲线)[2]。高

    尔顿板只是拉普拉斯中心极限定理的一个直观演示。

    中心极限定理确实是19世纪的数学奇迹。试想一下:虽然单个球的

    路径是不可预测的,但1000个球的路径的可预测性则非常高,这对《价

    格猜猜看》的制片人来说是一个很实用的事实。他们可以据此准确估算

    出在较长一段时间内参赛者在Plinko游戏中赢得的奖金数量。此外,尽

    管人类事物充斥着不确定因素,但同样的规律仍然让保险公司获利丰

    厚。

    皇家学院中穿着考究的观众一定想知道这一切与遗传规律到底有什

    么关系,因为这是发言人约定的演讲主题。为了说明二者的联系,高尔

    顿向观众展示了他所收集的关于法国军队新兵身高的数据。这些数据也

    遵循正态分布:多数人是中等身材,特别高或特别矮的人很少。事实

    上,无论我们谈论的是1000名新兵的身高还是高尔顿板上的1000个小球

    的路径,相对应的插槽和身高类别中的数字几乎总是相同的。

    因此,对高尔顿来说,梅花机就是一种关于身高遗传的模型,甚至

    可能也是关于许多其他遗传特征的模型。这是一个因果模型。简单来

    说,高尔顿相信,就像人类会遗传他们上一代的身高一样,金属小球也

    会“遗传”它们在梅花机中的位置。

    但是,如果我们暂且接受这个模式,就会出现一个难题,这也是高

    尔顿当晚的主题。钟形曲线的宽度取决于放置在钉板顶部和底部之间钉

    子的行数。假设我们将行数加倍,我们就构建了一个能够表示两代遗传

    的模型,其中上半部分代表第一代,下半部分代表第二代。此时你就会

    发现,第二代比第一代出现了更多的变异情况,而在随后的几代中,钟

    形曲线会变得越来越宽。

    然而,人类身高的真实状况并未出现此种趋势。事实上,随着时间

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者的推移,人类身高分布的宽度保持了相对的恒定。一个世纪前没有身高

    9英尺[3]

    的人类,现在依然没有。那么,是什么因素解释了这种总体基

    因遗传的稳定性呢?自1869年高尔顿的《世袭的天才》(Hereditary

    Genius)出版以来,他已为这一谜题苦苦思索了八年。

    正如书名所表明的,高尔顿真正感兴趣的不是弹珠游戏或人的身

    高,而是人类的智力。作为孕育了多位科学天才的大家族的成员之一,高尔顿自然乐意证明天赋在家族中代代相传。他在这本书中着手做的正

    是这项研究。他煞费苦心地编纂了605名英国“名门之秀”上溯4个世纪的

    家谱。但他发现,这些名门之秀的儿子和父亲并没有那么优秀,其祖父

    母和孙辈也并非都是卓越人才。

    如今我们可以很容易地找到高尔顿研究方法中的缺陷。归根结底,卓越的定义究竟是什么?有没有这种可能,即名门望族的成员获得成功

    只是因为他们掌握的特权而不是因为其本身的才能?尽管高尔顿意识到

    了这种可能的解释,但他初心不改,反而以更大的决心徒劳地寻求一个

    的遗传学解释。

    不过,高尔顿在此过程中还是有所发现的,特别是当他开始关注类

    似身高这样的遗传特征的时候。与“卓越”相比,身高特征更易测量,跟

    遗传的关联也更强。高个子男性的儿子往往身高也比普通人高——但很

    可能不如他们的父辈高;矮个子男性的儿子往往身高比一般人矮——但

    很可能不如他们的父辈矮。一开始,高尔顿称这种现象为“复

    归”(reversion),后又改称为“向均值回归”(regression toward

    mediocrity)[4]。我们可以在许多其他的情境中观察到这种现象。如果

    让学生参加基于同样复习资料的两次不同的标准化测试,那么,第一次

    测试得分较高的学生在第二次测试中的得分通常仍然高于均值,但没有

    第一次那么高。这种向均值回归的现象普遍存在于生活、教育和商业领

    域的方方面面。比如,棒球赛中的“年度新秀”(第一赛季表现异常出色

    的球员)经常会遭遇“新秀墙”,即在次年的比赛中陷入表现欠佳的低

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者谷。

    当然,高尔顿并不知道这些,他认为他偶然发现的是一条遗传规

    律,而不是统计规律。他认为,向均值回归的背后一定存在某个因。在

    皇家学院的讲座中,他说明了自己的观点。他向听众展示了两层的梅花

    机装置(见图2.1)。

    图2.1 高尔顿板,弗朗西斯·高尔顿用以类比人类的身高遗传规律。(a)将许多小球扔进弹球

    仪器,随机向下弹跳的小球堆积成钟形曲线。(b)高尔顿指出,经过A和B两个通道,通过两层

    的高尔顿板(用以模拟两代人)下落的小球所堆积成的钟形曲线会变得更宽。(c)为了抵消这

    种曲线变宽的趋势,他安装了斜槽,以使“第二代”小球回到中心。斜槽是高尔顿对“向均值

    回归”这一现象的因果解释(资料来源:弗朗西斯·高尔顿《自然遗传》,1889)

    经过第一组钉子阵列后,小球会通过一个斜槽向板子的中心集中,之后再通过第二组钉子阵列。高尔顿借助这一成功的演示,展示出斜槽

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者的设置恰好抵消了正态分布的扩散趋势。这一次,钟形曲线在代代传递

    中保持了恒定的宽度。

    因此,高尔顿推测,向均值回归是一个物理过程,一种自然方式,用以确保身高(或智力)的分布在代代相传中保持恒定。高尔顿告诉观

    众:“复归过程符合遗传变异的一般规律。”他将这一过程与胡克定律进

    行了比较,后者描述的是弹簧恢复到稳态长度的趋势。

    请记住这个日子。1877年,高尔顿致力于寻求一个因果解释,并认

    为向均值回归是一个因果过程,就像物理定律一样。他错了,但他的错

    误绝非个例。时至今日,许多人仍在继续犯着同样的错误。例如,棒球

    专家总是试图寻找球员遭遇新秀墙的因果解释。他们会抱怨,“他变得

    过度自信了”,或者“其他球员搞清楚了他的弱点”。他们也许是对的,但新秀墙实际上并不需要一个因果解释,这种现象单凭概率规则就足以

    解释了。

    现代统计学的解释很简单。正如丹尼尔·卡尼曼在他的著作《思

    考,快与慢》中总结的:“成功=天赋+运气,巨大的成功=更多的天赋

    +更多的运气。”一个赢得年度最佳新秀奖的球员可能的确比一般人更有

    才华,但他(更)可能也有很多的运气。在下个赛季,他可能就没有那

    么幸运了,他的平均击球率也会因此下降。

    到1889年,高尔顿已想通了这一点。在此过程中,他在统计学脱离

    因果关系的路上迈出了第一大步。这既让人失望,也令人着迷。他的推

    理过程是微妙而晦涩的,但值得我们付出努力去理解。这是作为新生学

    科的统计学发出的第一声啼哭。

    高尔顿开始收集各种“人体测量”方面的统计数据:身高、前臂长

    度、头部长度、头部宽度等。他注意到,譬如当他根据前臂长度计算身

    高时,同样的向均值回归的现象又出现了:高个子男性通常有长度大于

    均值的前臂,但又不会像他的身高那样远高于均值。显然,身高不是前

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者臂长度的因,反之亦然。如果存在一个原因的话,那么应该说二者都是

    由基因遗传决定的。高尔顿开始使用一个新的词来描述这种关系:身高

    和前臂长度是“共同相关的”(co-related)。之后,他又将这个词简化为

    一个更普通的英语单词——“相关的”(correlated)。

    后来,他又意识到一个更令人吃惊的事实:在进行代际比较时,向

    均值回归的时间顺序可以逆转。也就是说,子辈的父辈的遗传特征情况

    也会回归到均值。即儿子的身高若高于均值,则其父亲的身高很可能也

    高于均值,但往往父亲要比儿子矮(见图2.2)。在意识到这一点时,高尔顿不得不放弃了寻找向均值回归的因果解释的任何想法,因为子辈

    的身高显然不可能是父辈身高的因。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者图2.2 散点图显示了有关身高的数据集,每个点代表的是父亲的身高(x轴)和他儿子的身高

    (y轴)的组合。虚线与椭圆的主轴重合,而实线(我们称其为回归线)连接了椭圆最右边和最

    左边的点。二者之间的差异就是向均值回归的体现。例如,椭圆中的黑色星号显示,父辈身高

    为72英寸,则其子辈平均身高为71英寸,即图中垂直框中所有数据点的平均值为71英寸。水平

    框和白色星号显示的是在非因果方向(时间逆转方向)存在同样的身高损失现象(资料来源:

    马雅·哈雷尔绘图,克里斯托弗·布歇供稿)

    这种认识乍听起来可能自相矛盾。你可能要问:“等等!你是说,高个子的父亲通常有相较他们自己而言较矮的儿子,并且同时,高个子

    的儿子通常有相较他们自己而言较矮的父亲——这两种说法怎么可能同

    时为真?儿子怎么可能既比父亲高,又比父亲矮?”

    答案是,我们谈论的并不是个体的父亲和个体的儿子,而是父辈和

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者子辈两个总体。我们从身高6英尺的父辈总体开始算起。因为他们的身

    高高于均值,所以他们儿子的身高将出现向均值回归的现象,我们姑且

    假设他们儿子的平均身高为5英尺11英寸。然而,由父辈身高为6英尺的

    父子组合构成的总体有别于由子辈身高为5英尺11英寸的父子组合构成

    的总体。第一组中,所有的父亲都是6英尺高。但第二组中,父亲身高

    超过6英尺的较少,大部分身高不到6英尺,他们的平均身高要低于5英

    尺11英寸,再次显示了向均值回归的趋势。

    另一种解释向均值回归的方法是使用所谓的散点图(见图2.2)。

    每对父子组合都由一个点来表示,其中x坐标表示的是父亲的身高,y坐

    标表示的是儿子的身高。因而,父亲和儿子的身高均为5英尺9英寸(或

    69英寸)的组合可以由点(69,69)来表示,如图2.2所示,其位于散

    点图的中心。身高6英尺(或72英寸)的父亲和身高5英尺11英寸(或71

    英寸)的儿子的组合,则可以用点(72,71)表示,位于散点图的东北

    角。请注意,散点图的形状大致呈椭圆形,这一点对于高尔顿分析以及

    揭示两个变量的钟形分布特征而言至关重要。

    如图2.2所示,父辈身高为72英寸的父子组合的点位于以72为中心

    的垂直框(或称“垂直切片”)内;子辈身高为71英寸的父子组合的点位

    于以71为中心的水平框(或称“水平切片”)内。通过观察可见,它们是

    两个不同的总体。如果只关注第一个总体,即父辈身高为72英寸的父子

    组合,我们可以问的问题是:其中子辈的平均身高是多少?这等于是在

    问垂直框的中心位置,通过观察可知其中心大约是71。如果只关注第二

    个总体,即子辈身高为71英寸的父子,我们可以问的问题是:其中父辈

    的平均身高是多少?这等于是在问水平框的中心位置,通过观察可知其

    中心大约是70.3。

    我们可以更进一步考虑以同样的步骤分析每一个垂直框。这就相当

    于在问:对于身高为x的父辈,其子辈身高(y)的最佳预测是多少?或

    者,我们也可以取每个水平框,问它的中心在哪里,即对于身高为y的

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者子辈,其父辈身高(x)的最佳“预测”(或倒推)是多少?

    通过思考这个问题,高尔顿无意间发现了一个重要事实:预测总是

    落在一条直线上,他称这条直线为回归线,它比椭圆的主轴(或对称

    轴)的斜率小(见图2.3)。事实上,这样的直线有两条,我们选择哪

    条线作为回归线取决于我们要预测哪个变量而将哪个变量作为证据。你

    可以根据父亲的身高预测儿子的身高,或者根据儿子的身高“预测”父亲

    的身高,这两种情况是完全对称的。这再次表明,对于向均值回归这一

    现象,因和果是没有区别的。

    图2.3 高尔顿回归直线。图中横轴显示的是子辈身高及偏差值,纵轴显示了“中亲”(mid-

    parents)[5]的身高及偏差值。如果你知道父亲的身高,则直线OM将为你提供其儿子身高的最

    佳预测;如果你知道儿子的身高,则直线ON将为你提供其父亲身高的最佳预测。这两条直线都

    不同于散点图中的主轴(对称轴)(资料来源:弗朗西斯·高尔顿,《大不列颠和爱尔兰人类

    学学院学报》,1886,第246–263页,插图X)

    在已知一个变量的值的情况下,回归斜率能让你预测另一个变量的

    值。在高尔顿的父子身高问题中,0.5的回归斜率意味着父亲的身高每

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者增加1英寸,相应地,儿子的平均身高就增加0.5英寸,反之亦然。回归

    斜率为1表示两个变量呈完全相关,这意味着父亲每增高1英寸,这一变

    化都能完全地传递给儿子,使其平均身高增加1英寸。回归斜率不可能

    大于1,否则高个子父亲的儿子其身高会进一步高于平均值,矮个子父

    亲的儿子其身高会进一步低于平均值,这将使得身高分布随时间的推移

    而变宽。这样一来,几代后可能就会出现身高9英尺的人和身高2英尺的

    人了,而这与现实并不相符。因此,只要身高分布在世代相传中保持不

    变,回归线的斜率就不能大于1。

    即使我们将两个不同类别的量关联起来,如身高和智力,回归定律

    依然适用。如果你在散点图中绘制这两个变量的数据点,并对坐标系进

    行适当的缩放,则关于两个变量之间关系的最佳拟合线的斜率总是具有

    相同的属性:只有当一个量可以准确地预测另一个量时,斜率才等于

    1;而若预测结果几乎等同于随机猜测,则斜率等于0。无论你是根据Y

    预测X,还是根据X预测Y,斜率(在对坐标系进行了适当缩放之后)都

    是相同的。换言之,斜率完全不涉及因果信息。一个变量可能是另一变

    量的因,或者它们都是第三个变量的果,而对于预测目标变量的值这一

    目的而言,这些并不重要。

    高尔顿提出的相关性概念首次在不依赖于人的判断或解释的前提下

    以客观度量说明了两个变量是如何关联的。这两个变量可以是身高、智

    力或者收入,它们可以是因果的、相互独立的或反因果的关系。相关性

    总是能够反映出两个变量间相互可预测的程度。高尔顿的弟子卡尔·皮

    尔逊后来推导出了一个(经过适当调整的)回归线斜率公式,并称之

    为“相关系数”。时至今日,当我们想了解一个数据集中两个不同变量的

    关联有多强时,相关系数依然是全世界统计学家计算的第一个数值。找

    到这样一种通用的方式来描述随机变量之间的关系,高尔顿和皮尔逊一

    定曾为此激动不已。尤其是皮尔逊,在他的眼中,与相关系数这种在数

    学上清晰且精确的概念相比,那些关于因果的模糊而陈旧的概念似乎已

    经完全过时而丧失科学性了。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者高尔顿和被丢弃的探索

    高尔顿以寻找因果关系为起点,最终却发现了相关性——一种无视

    因果的关系。这是一段颇具讽刺意味的历史。即便如此,他的著作仍留

    有使用因果思维的痕迹。他在1889年写道:“很容易看出,(两个器官

    尺寸之间的)相关性一定是这两个器官共同变异的结果,而变异部分地

    归于相同的原因。”

    被奉上相关性“祭坛”的第一个祭品就是高尔顿的梅花机,它是为解

    释总体遗传基因的稳定性而精心设计的。梅花机模拟了人类身高变异的

    产生,以及变异代代相传的过程。但高尔顿不得不在梅花机中设置斜

    槽,以控制总体中日益增加的变异。由于没有找到一个令人满意的生物

    机制来解释这种指向均值的复原力,高尔顿在8年后放弃了这一努力,并把注意力转向了危险而诱人的相关性。史学家斯蒂芬·施蒂格勒撰写

    了大量关于高尔顿的文章,他注意到了高尔顿在目标和志向上的这一突

    然转变:“悄然消失的是达尔文、斜槽和所有的‘适者生存’……极具讽刺

    意味的是,高尔顿尝试将《物种起源》的理论框架数学化的初衷最终导

    向了他对这部伟大著作的精髓的摒弃!”

    但是在当下因果推断的语境下,对我们来说,最初的那个问题依然

    存在:根据达尔文的学说,变异是代代相传的,那么我们究竟应该如何

    解释总体的稳定性?

    根据因果图回顾高尔顿的梅花机,我首先注意到的是其中装置构建

    的错误。那个让高尔顿不得不设置斜槽以施加反力的不断增长的分散

    力,从一开始就不该出现。事实上,如果我们追踪梅花机中从一层落到

    下一层的某个小球,我们会看到,小球在下一层的位移继承了其沿路撞

    到的所有钉子带给它的变化的总和。这就与卡尼曼的方程产生了明显的

    矛盾:

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者成功=天赋+运气

    巨大的成功=更多的天赋+更多的运气

    根据卡尼曼的方程,第二代的成功不会继承第一代的运气。按其定

    义,运气本身是一个只具有短暂影响的事件,因此其对后代没有影响。

    然而这一具有短暂影响的事件与高尔顿的梅花机是不兼容的。

    为将这两个概念放在一起比较,让我们试着画出相应的因果图。在

    图2.4(a)(高尔顿的概念)中,成功是世代相传的,运气的变化是无

    限累积的。如果“成功”等同于财富或显赫,那这个过程看起来还算合

    理。然而,对于像身高这样的物理特征的遗传,我们必须用图2.4(b)

    中的模式取代高尔顿的模型。因为只有可遗传的成分(在此图示中以天

    赋代指)是世代相传的,而运气则独立地影响每一代,影响某一代的运

    气因素不会直接或间接地影响其后代。

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者图2.4 关于遗传的两种模型。(a)高尔顿板模型,在这种模型下,运气世代相传,这就导致成

    功的分布不断变宽。(b)遗传模型,在这种模型下,运气不会累积,这就导致成功在代际间的

    稳定分布

    这两种模型都与身高的钟形分布兼容,但是第一种模型不符合身高

    (或成功)分布的代际稳定性。而第二种模型则表明,要解释世代相传

    中的特征(成功)分布稳定性,我们只需要解释总体基因遗传(天赋)

    的稳定性即可。这种稳定性现在被称为哈代—温伯格平衡,是1908年由

    戈弗雷·哈罗德·哈代和威廉·温伯格在其研究中提出的,他们为这一现象

    给出了一个令人满意的数学解释。是的,他们借助的工具是另一个因果

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者模型——孟德尔遗传理论。

    现在回过头看,高尔顿不可能预料到孟德尔、哈代和温伯格的工

    作。1877年高尔顿发表演讲时,格雷戈·孟德尔在1866年所做的工作早

    已被遗忘(直到1900年才被重新发现),而哈代和温伯格在其证明中所

    使用的数学理论工具则很可能在高尔顿的时代还无法被理解。然而颇为

    有趣的是,高尔顿曾经离发现这个正确的理论框架只差一步,而绘制一

    张因果图可以让他很容易地找到原假设中的错误——运气可以世代相

    传。遗憾的是,他被自己漂亮但有缺陷的因果模型误导,继而发现了相

    关性的美,并从此开始相信科学不再需要因果关系了。

    作为对高尔顿的故事发表的最后一点个人评论,我承认我犯了历史

    写作的一项大忌,这也是我在本书中犯下的许多大忌之一。20世纪60年

    代,像我上面那样以现代科学的视角来书写历史的做法已经过时

    了。“辉格史观”(Whig history)就是一个针对此种做法的批判性术语,用于嘲弄事后诸葛亮式的历史写作风格——只关注成功的理论和实验,而对失败的实验和陷入僵局的理论发展几乎只字不提。现代风格的历史

    写作则变得更加民主,其给予化学家和炼金师同等的尊重,强调理解当

    事人身处的时代背景和社会背景对相应理论发展的影响。

    然而,在阐述因果关系被统计学驱逐出去的原因时,我欣然地继承

    了辉格史学家的衣钵。要想理解统计学是如何变成一个模型盲、以数据

    约简为其主要事业的学科,我们只能拿起因果透镜,以关于因果关系的

    新科学为视角重新叙述高尔顿和皮尔逊的故事,除此之外我们别无他

    法。事实上,正是通过这种方式,我纠正了主流科学史学家在其叙述中

    引起的歪曲。他们缺乏因果词汇,惊叹于相关性的发明,却没有注意到

    它带来的灾难——因果关系的死亡。

    皮尔逊:狂热者的愤怒

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者从统计学中彻底抹去因果关系的任务留给了高尔顿的学生,卡尔·

    皮尔逊。然而,即使是他也未能完全成功。

    对于皮尔逊的一生而言,一个关键事件就是他阅读了高尔顿的《自

    然遗传》。“我觉得自己像德雷克时代的海盗,或者就像字典里说

    的,‘不完全是海盗,但无疑有成为海盗的倾向’!”他在1934年写

    道,“我认为……高尔顿的本意是,存在一个比因果关系更广泛的范

    畴,即相关性,而因果关系只是被囊括于其中的一个有限的范畴。这种

    关于相关性的新概念在很大程度上将心理学、人类学、医学和社会学引

    向了数学处理的领域。是高尔顿第一次将我从偏见中解救出来。这种偏

    见就是:可靠的数学工具只能应用于解释因果关系范畴下的自然现

    象。”

    在皮尔逊的眼中,高尔顿扩展了科学的词汇。因果关系被简化为仅

    仅是相关关系的一个特例(在这一特例中,相关系数为1或–1,两个变

    量x和y之间的关系是确定的)。在《科学语法》(The Grammar of

    Science,1892)中,他清晰地表达了自己的因果观:“一个特定的事件

    序列在过去已经发生并且重复发生,这只是一个经验问题,对此我们可

    以借助因果关系的概念给出其表达式……在任何情况下,科学都不能证

    明该特定事件序列中存在任何内在的必然性,也不能绝对肯定地证明它

    必定会重复发生。”总而言之,因果关系对于皮尔逊来说仅仅是一种重

    复,在确定性的意义上是永不可证的。至于不确定性世界中的因果论,皮尔逊更是不屑一顾:“描写两个事物之间关系的终极的科学表述,总

    可被概括为……一个列联表(contingency table)[6]。”换言之,数据就

    是科学的全部,毋庸赘言。在这个观点中,第一章所讨论的干预和反事

    实的概念并不存在,因果关系之梯的最底层就是科学家进行科学研究所

    需的一切。

    从高尔顿到皮尔逊的这种思想飞跃是惊人的,皮尔逊也确实配得上

    海盗之名。高尔顿仅仅证明了一种现象,向均值回归,不需要因果解

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者释。而皮尔逊则已准备好了将因果关系从科学中完全清除。那么,究竟

    是什么让他迈出了这一步?

    历史学家泰德·波特在他的传记《卡尔·皮尔逊》里提出,皮尔逊对

    因果关系的怀疑早在他读到高尔顿的书之前就已经产生了。皮尔逊一直

    在设法解决物理学的哲学基础问题,例如他曾写道:“力作为运动的

    因,与树神作为生长的因可等同视之。”更概括地说,皮尔逊属于一个

    名为实证主义的哲学学派,该学派认为宇宙是人类思想的产物,而科学

    只是对这些思想的描述。因此,因果关系被解释为一个发生在人类大脑

    之外的世界中的客观过程,不具有任何科学意义。有意义的思想只能反

    映观察结果中存在的特定模式,而这些模式完全可以通过相关关系描述

    出来。皮尔逊认定相关性是比因果关系更普遍的人类思维描述符号,由

    此,他便准备好了彻底摈弃因果关系。

    波特生动地描绘了皮尔逊的一生,称其为自我标榜

    的“Schw?rmer”,这是一个德文单词,可译为“爱好者”,但也可以被解

    读为程度更强的“狂热分子”。1879年皮尔逊从剑桥毕业后,在德国待了

    一年,爱上了德国文化,很快就将自己的名字由Carl改成Karl。皮尔逊

    早在成名之前就是一个社会主义者,1881年他曾写信给卡尔·马克思,主动提出要把《资本论》翻译为英文。皮尔逊可能也是英格兰最早的女

    权主义者之一,他在伦敦创办了“男性女性俱乐部”,专门讨论“女性问

    题”。他关注妇女的社会从属地位,主张应为她们的工作支付合理的报

    酬。他对各种思想充满激情,同时对自己的激情又有着清醒的认识。他

    花了近半年的时间劝说他后来的妻子玛丽·夏普嫁给他。从他们二人的

    信件来往可以看出,玛丽曾经非常担忧自己达不到他对于伴侣智力的理

    想要求。

    在发现高尔顿及其相关性后,皮尔逊终于找到了自己激情的聚焦

    点:一个他认为可以改变整个科学世界,并把数学的严谨性带入诸如生

    物学、心理学这样的领域的绝妙理念。他带着海盗般的使命感致力于完

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者成这项任务。他的第一篇统计学论文发表于1893年,在高尔顿发现相关

    性的4年之后。1901年,他创办了《生物统计学》(Biometrika)期刊,直至现在它仍是影响力最大的统计学期刊之一(说起来不可思议,正是

    该期刊于1995年刊载了我的第一篇关于因果图的完整论文)。1903年,皮尔逊获得了服装商同业工会的拨款,在伦敦大学学院创办了计量生物

    学实验室。1911年,高尔顿去世,同年该实验室正式成为伦敦大学学院

    的一个院系,高尔顿留下的一笔遗产被用于设置教授之职(并且遗嘱规

    定必须由皮尔逊担任院系的第一位教授)。在接下来的至少20年中,皮

    尔逊的计量生物学实验室一直是统计学世界的中心。

    在获得教授之职后,皮尔逊的狂热表现得越来越明显。波特在其传

    记中写道:“皮尔逊发起的统计学运动带有明显的派系斗争性质。他要

    求同事表示百分之百的忠诚,有奉献精神,并且曾迫使异议人士离开这

    个他所建立起的计量生物学的‘教会’。”最早追随他的研究助手乔治·乌

    德尼·尤尔也是最先感受到皮尔逊的狂热和愤怒的人之一。1936年,尤

    尔为英国皇家学会写了皮尔逊的讣告。这篇讣告虽然措辞委婉,但仍然

    明确地表达了尤尔在那些日子所遭受的精神折磨:

    诚然,他的热情所带来的感染力是很可贵的,但他的强势,甚至包

    括他过于热切地给予帮助的行为,都给他人造成了伤害……这种支配

    欲,这种一切事都必须如他所愿的偏执,也体现在了别的方面,尤为突

    出的是编辑《生物统计学》的过程。可以说,这一期刊肯定是有史以来

    学界公开发行的最能体现编辑者个人倾向的学术期刊……那些后来离开

    了他的团队并开始独立做研究的人曾指出,在发现双方观点存在分歧之

    后,继续维持友好的关系就变得非常困难,而表达批评就更不可能了,这种令人痛苦的事情已发生过很多次了。

    即便如此强势,皮尔逊舍弃了因果论而建构起来的科学大厦还是出

    现了裂痕,或许在创建者手中,它出现的裂痕甚至还要多于其在门徒手

    中出现的裂痕。例如,皮尔逊本人就曾出人意料地撰写过几篇关于“伪

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者相关性”的论文,而这正是一个不借助因果关系就无法理解的概念。

    皮尔逊注意到,发现显然不合理的相关关系是相对容易的。例如,在皮尔逊之后的时代,有人曾提到过这样一个有趣的例子:一个国家的

    人均巧克力消费量和该国诺贝尔奖得主的人数之间存在强相关。这种相

    关性显然是很愚蠢的,因为不管我们怎么想象,吃巧克力看起来都不可

    能导致我们获得诺贝尔奖。一个更可靠的解释是,在富裕的西方国家,吃巧克力的人更多,而且诺贝尔奖得主也是优先从这些国家中选出的。

    但这是一个因果解释,对皮尔逊来说,这不是科学思维所必需的要素。

    对他而言,因果关系只是“对于现代科学中一些深奥难解的事物的一种

    迷信”,相关性才应该是科学理解的目标。但这种观点让他在不得不解

    释为什么一个相关性是有意义的而另一个就是“伪相关”时陷入了一种尴

    尬的境地。他解释说,真正的相关性能够表明变量之间的一种“有机关

    系”,而伪相关则不能。但什么是“有机关系”呢?这难道不是因果关系

    的另一种叫法?

    皮尔逊和尤尔一起收集了几个伪相关的例子。其中一类典型的例子

    如今被称为“混杂”,巧克力—诺贝尔奖的故事就属此类。(经济情况和

    地理位置是混杂因子,或者说是巧克力消费与诺贝尔奖得奖频率的共

    因。)类似的“荒谬相关”的另一种类型往往出现在时间序列数据中。例

    如,尤尔发现英国某年的死亡率与由英国教堂主持婚礼的婚姻在总体中

    的比例之间有着极高的相关性(0.95)。这难道说明上帝要惩罚婚姻幸

    福的信徒吗?不!这只不过是两种独立的历史趋势在同一时间出现而

    已:该国的死亡率正在下降,同时,英国教会的成员人数也在下降。由

    于两者同时下降,因此两者之间出现了正相关,但两者并没有因果联

    系。

    早在1899年,皮尔逊就发现了可能是最有趣的一种“伪相关”——当

    两个异质总体合二为一时,“伪相关”就出现了。皮尔逊和高尔顿一样,也是一个狂热的人体数据收集者,他获得了来自巴黎地下墓穴的806块

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者男性颅骨和340块女性颅骨的测量数据(见图2.5)。他计算了颅骨长度

    和宽度的相关性。在只考虑男性或女性的数据时,二者的相关性可以忽

    略不计,也就是说颅骨长度和宽度之间没有显著的相关性。但在把两组

    不同性别的数据合并后,二者的相关系数就变成了0.197,这一数值通

    常被解读为较为明显的正相关。这一结论在某种意义上也是可以理解

    的,因为颅骨长度短可能表明它属于女性,因而其宽度可能也相对较

    窄。然而,皮尔逊认为这只是一个统计假象。相关系数为正这一事实并

    没有生物学意义或“有机”含义,而仅仅是不恰当地将两个不同的总体结

    合在一起的结果。

    图2.5 卡尔·皮尔逊与巴黎地下墓穴的颅骨(资料来源:由达科塔·哈尔绘制)

    这个例子是一种更为普遍的现象的一个特例,该现象被称作“辛普

    森悖论”。我们将在第六章讨论在何种条件下我们应该对数据进行分

    割,并解释为什么将异质总体的数据结合起来处理时会产生伪相关。但

    现在,让我们先看看皮尔逊是怎么说的:“对于那些坚持把所有相关关

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者系视为因果关系的人来说,这一事实定然令人震惊——通过人工混合两

    个类似种属,我们就能让两个毫不相关的特征A和B之间产生相关

    性。”正如斯蒂芬·施蒂格勒的评论所言:“我禁不住猜测,他自己可能

    才是第一个对此感到震惊的人。”可以看出,皮尔逊实质上是在自责自

    己从因果关系的角度思考问题的倾向。

    如果现在透过因果透镜再来看一下这个例子,我们只能说,皮尔逊

    真是错失了良机!在理想的世界里,这样的例子可能会促使一位天才科

    学家思考自己为此而震惊的原因,继而创建出一种科学方法用以预测在

    何种情况下这样的伪相关会出现。至少,他应该能够向大家揭示何时可

    以聚合数据,何时不可以。但皮尔逊给他的追随者提供的唯一指导意见

    就是“人造”的聚合(无论它意味着什么)都是不好的。讽刺的是,使用

    因果透镜,我们现在已经意识到了,在某些情况下,正确的分析结果只

    能来自聚合数据,而非来自分组数据。因果推断的逻辑能够在事实上告

    诉我们应该信任哪一个结果。我多么希望皮尔逊能与我们一起分享这一

    发现!

    皮尔逊的学生并不都是对他亦步亦趋的。尤尔就因为一些其他的原

    因与皮尔逊闹翻了,他们在学术研究上就此分道扬镳。起初,尤尔属于

    强硬派阵营,相信相关性能够揭示我们在科学领域所需要理解的一切。

    然而,当他试图解释伦敦的贫困状况时,他的看法发生了改变。1899

    年,他致力于研究“院外救济”(指不通过救济院向贫困家庭发放救济)

    是否提高了贫困率这一问题。数据显示,得到较多院外救济的区域反而

    有着较高的贫困率。但尤尔发现,这种相关性可能是伪相关,因为这些

    地区可能有更多的老年人,而这些人往往会越来越穷。不过,他紧接着

    就发现,即使将老年人占比相同的地区进行比较,院外救济和贫困率的

    相关性仍然存在。这一发现鼓励了他勇敢说出自己的结论:贫困率的提

    高可以归因于院外救济。但是,在“越界”做出了这个因果判定后,他再

    次回归“正轨”。在论文的一个脚注里,他写道:“严格说来,‘归因于’应

    当读作‘与……相关’。”这句话为他之后的几代科学家设定了一个表述模

    更多电子书请访问:爱分享 http:www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者式:虽然在心里想的是“归因于”,但在论文写作时要把它说成“与……

    相关”。

    皮尔逊和他的追随者对因果关系深怀敌意,而像尤尔这类不坚定的

    追随者害怕与他们的领袖正面对抗,这就为大洋彼岸的另一位科学家提

    供了机会,对回避因果的文化首次提出了正面挑战。

    休厄尔·赖特、豚鼠和路径图

    1912年,当休厄尔·赖特刚刚来到哈佛大学时,其学术背景很难让

    人相信此后他会对科学界造成如此深远的影响。他曾就读于伊利诺伊州

    一个不起眼(现已解散)的大学——伦巴第学院。毕业时,他所在的班

    级只有7名学生。他的父亲菲利普·赖特曾是他的老师之一。菲利普·赖特

    是个学术多面手,甚至担任过学院打印社的经营者。休厄尔和 ......

您现在查看是摘要介绍页, 详见PDF附件(8519KB,436页)