当前位置: 首页 > 新闻 > 信息荟萃
编号:6162
终极算法机器学习和人工智能如何重塑世界.pdf
http://www.100md.com 2020年11月30日
第1页
第10页
第20页
第24页
第34页
第161页

    参见附件(5305KB,368页)。

     终极算法机器学习和人工智能如何重塑世界揭秘机器学习的终极逻辑,全景勾勒人工智能的商业未来。《乔布斯传》作者沃尔特·艾萨克森、图灵奖得主朱迪亚·珀尔、中国大数据领航人车品觉、今日头条首席算法架构师曹欢欢倾力推荐!

    作者简介

    佩德罗·多明戈斯(Pedro Domingos),美国华盛顿大学计算机科学教授,加州大学欧文分校信息与计算机科学博士,在机器学习与数据挖掘方面著有200多部专业著作和数百篇论文。国际机器学习学会联合创始人,《机器学习》杂志编委会成员,JAIR前副主编。美国人工智能协会院士(AAAI Fellow,国际人工智能界的最高荣誉),荣获SIGKDD创新大奖(数据科学领域的*高奖项)、斯隆奖(Sloan Fellowship)、美国国家科学基金会成就奖(NSF CAREER Award)、富布赖特奖学金、IBM学院奖以及多个顶极论文奖项。

    内容简介

    购物网站用算法来为你推荐商品,点评网站用算法来帮你选择餐馆,GPS系统用算法来帮你选择*佳路线,公司用算法来选择求职者……

    当机器最终学会如何学习时,将会发生什么?

    不同于传统算法,现在悄然主导我们生活的是“能够学习的机器”,它们通过学习我们琐碎的数据,来执行任务;它们甚至在我们还没提出要求,就能完成我们想做的事。

    什么是终极算法?

    机器学习五大学派,每个学派都有自己的主算法,能帮助人们解决特定的问题。而如果整合所有这些算法的优点,就有可能找到一种“终极算法”,该算法可以获得过去、现在和未来的所有知识,这也必将创造新的人类文明。

    你为什么必须了解终极算法?

    不论你身处什么行业、做什么工作,了解终极算法都将带给你崭新的科学世界观,预测以后的科技发展,布局未来,占位未来!

    在《终极算法》中,全球著名的算法问题专家、机器学习领域的先驱人物佩德罗·多明戈斯,为我们揭开了算法的神秘面纱,让我们一窥谷歌以及你的智能手机背后的机器学习原理。他阐释了机器学习的五大学派思想,解释了它们如何将神经科学、心理学、物理等领域的理论转变为算法并为你服务,并提出了“终极算法”的设想,探讨了终ji算法对未来商业、科学、社会以及对每个人的意义。对于想要理解未来将发生怎样的变革、以及想走在变革前沿的人来说,这是一本必不可少的思想指南。

    “如果这种终极算法存在,那么它将可以通过数据获得世界上过去、现在、未来的所有知识。这个算法的发明将会是科学史上伟大的进步之一。”

    我们将走向何方

    科技潮流奔涌而来并迅猛向前。机器学习不同寻常的一点就是,在经历所有这些变革以及繁荣和破产之后,它开始逐渐强大。它遇到的第一个大的打击是在金融领域,预测股票的起伏波动,起于20世纪80年代。接下来的一波是挖掘企业数据库,在20世纪90年代中开始发展壮大,尤其是在直接营销、客户关系管理、资信评分以及诈骗侦查等领域。接着是网络和电子商务,在这些领域中,自动个性化很快流行起来。当互联网泡沫暂时削弱这种趋势时,将机器学习应用到网页搜索和广告投放的做法开始腾飞起来。不管怎样,9-11恐怖袭击后机器学习被应用到打击恐怖主义的战争中。网络2.0带来一连串的新应用,包括挖掘社交网络、搜索哪些博客谈到你的产品。同时,各个领域的科学家也逐渐转向大规模建模,由分子生物学家和天文学家打头阵。人们勉强留意到了房地产泡沫,而其主要影响就是使人才从华尔街转移到硅谷,并受到欢迎。2011年,“大数据"的概念流行起来,机器学习被明确归入全球经济未来的中心。当今,似乎没有哪个人类钻研的领域不受到机器学习的影响,甚至包括看起来没有多大关系的领域(如音乐、体育、品酒).

    尽管机器学习发展很明显,但这也仅仅是未来的预告。虽然它有用,但实际上当今在工业上起作用的学习算法的生成还是受到了很大限制。如果现在实验室的算法能在各领域的前线使用,比尔·盖茨说机器学习的突破产生的价值将相当于10家微软,其实这个说法有点保守了。如果这些观点让研究人员真正觉得眼前一片光明,而且收到效果,那么机器学习带来的就不仅仅是新的文明时代,还是地球生命进化的新阶段。

    怎样才能实现这个目标?学习算法如何运行?现在它们不能做什么?它们的下一代会是怎样的?机器学习革命将以什么方式呈现?你得抓住哪些机遇,提防哪些危险?这些就是这本书要讲的内容。

    来自进化论的论证

    生物多样性源于单一机制:自然选择。值得注意的是,计算机科学家对该机制非常熟悉:我们通过反复研究尝试许多备选方法来解决问题,选择并改进最优方案,并尽可能多地尝试这些步骤。进化论是一种算法。套用查尔斯·巴贝奇(维多利亚时期的计算机先驱人物)的观点,上帝创造的不是物种,而是创造物种的算法。达尔文在《物种起源》的总结部分提到的“无限形体,美丽至极”掩饰了最美的统一性:所有这些形体都被编码在DNA中,所有这些形体都通过改变和连接这些染色体来表现。只通过该算法的一个描述,谁会猜出它产生了你和我?如果进化论这个算法能学习我们,可以想象它还可以学习能学习到的一切,条件是我们将进化论这个算法运用到足够强的计算机上。的确,在机器学习领域,通过模仿自然选择来使程序进化是许多人正在努力做的事情。因此,进化论是另外一个有希望通往终极算法的途径。利用足够多的数据,一种简单的算法能掌握什么?关于这个问题,最经典的例子就是进化论。输入进化论这个算法的信息是所有存在过的、活着的生物的经历以及命运(对现在的算法来说是大数据)。此外,这个进化论算法已经在地球上最强大的计算机运行了300多万年-这台强大的计算机就是地球自己。运行这个算法的真正计算机应该比地球这台“计算机”运转得更快、数据密集性更低。哪一个模型更适合终极算法:进化还是大脑?这是和机器学习有关、自然与培育之间的辩论。正如我们的存在依靠的是自然与培育的共同力量,也许真正的终极算法包含这两个方面。

    终极算法机器学习和人工智能如何重塑世界截图

    终极算法

    ——机器学习和人工智能如何重塑世界

    [美] 佩德罗· 多明戈斯 著黄芳萍 译

    中信出版社 目录

    推荐序 ............................................................................................................................................. 8

    第一章机器学习革命 ................................................................................................................... 21

    学习算法入门 ............................................................................................................................... 26

    为何商业拥护机器学习 ............................................................................................................... 30

    给科学方法增压 ........................................................................................................................... 35

    10亿个比尔· 克林顿 ..................................................................................................................... 38

    学习算法与国家安全 ................................................................................................................... 40

    我们将走向何方 ........................................................................................................................... 43

    第二章终极算法 ........................................................................................................................... 44

    来自神经科学的论证 ................................................................................................................... 47

    来自进化论的论证 ....................................................................................................................... 50

    来自物理学的论证 ....................................................................................................................... 51

    来自统计学的论证 ....................................................................................................................... 53

    来自计算机科学的论证 ............................................................................................................... 54

    机器学习算法与知识工程师 ....................................................................................................... 57

    天鹅咬了机器人 ........................................................................................................................... 61

    终极算法是狐狸,还是刺猬 ....................................................................................................... 64

    我们正面临什么危机 ................................................................................................................... 65

    新的万有理论 ............................................................................................................................... 69

    未达标准的终极算法候选项 ....................................................................................................... 72

    机器学习的五大学派 ................................................................................................................... 74

    第三章符号学派:休谟的归纳问题 ........................................................................................... 81

    约不约 ........................................................................................................................................... 83

    “天下没有免费的午餐”定理 ....................................................................................................... 88

    对知识泵进行预设 ....................................................................................................................... 91

    如何征服世界 ............................................................................................................................... 94

    在无知与幻觉之间 ....................................................................................................................... 96

    你能信任的准确度 ..................................................................................................................... 102

    归纳是逆向的演绎 ..................................................................................................................... 108

    掌握治愈癌症的方法 ................................................................................................................. 112 20问游戏 .................................................................................................................................... 115

    符号学派 ..................................................................................................................................... 119

    第四章联结学派:大脑如何学习 ............................................................................................. 122

    感知器的兴盛与衰亡 ................................................................................................................. 127

    物理学家用玻璃制作大脑 ......................................................................................................... 134

    世界上最重要的曲线 ................................................................................................................. 137

    攀登超空间里的高峰 ................................................................................................................. 141

    感知器的复仇 ............................................................................................................................. 145

    一个完整的细胞模型 ................................................................................................................. 148

    大脑的更深处 ............................................................................................................................. 149

    第五章进化学派:自然的学习算法 ......................................................................................... 153

    达尔文的算法 ............................................................................................................................. 155

    探索:利用困境 ......................................................................................................................... 161

    程序的适者生存法则 ................................................................................................................. 164

    性有何用 ..................................................................................................................................... 168

    先天与后天 ................................................................................................................................. 170

    谁学得最快,谁就会赢 ............................................................................................................. 173

    第六章贝叶斯学派:在贝叶斯教堂里 ..................................................................................... 176

    统治世界的定理 ......................................................................................................................... 177

    所有模型都是错的,但有些却有用 ......................................................................................... 183

    从《尤金· 奥涅金》到 Siri......................................................................................................... 188

    所有东西都有关联,但不是直接关联 ..................................................................................... 192

    推理问题 ..................................................................................................................................... 197

    掌握贝叶斯学派的方法 ............................................................................................................. 204

    马尔可夫权衡证据 ..................................................................................................................... 208

    逻辑与概率:一对不幸的组合 ................................................................................................. 211

    第七章类推学派:像什么就是什么 ......................................................................................... 213

    完美另一半 ................................................................................................................................. 216

    维数灾难 ..................................................................................................................................... 223

    空中蛇灾 ..................................................................................................................................... 228

    爬上梯子 ..................................................................................................................................... 237

    起床啦 ......................................................................................................................................... 241 第八章无师自通 ......................................................................................................................... 244

    物以类聚,人以群分 ................................................................................................................. 247

    发现数据的形状 ......................................................................................................................... 253

    拥护享乐主义的机器人 ............................................................................................................. 261

    熟能生巧 ..................................................................................................................................... 268

    学会关联 ..................................................................................................................................... 272

    第九章解开迷惑 ......................................................................................................................... 279

    万里挑一 ..................................................................................................................................... 281

    终极算法之城 ............................................................................................................................. 284

    马尔科夫逻辑网络 ..................................................................................................................... 292

    从休谟到你的家用机器人 ......................................................................................................... 296

    行星尺度机器学习 ..................................................................................................................... 302

    医生马上来看你 ......................................................................................................................... 306

    第十章建立在机器学习之上的世界 ......................................................................................... 309

    性、谎言和机器学习 ................................................................................................................. 310

    数码镜子 ..................................................................................................................................... 314

    充满模型的社会 ......................................................................................................................... 315

    分享与否?方式、地点如何? ................................................................................................. 318

    神经网络抢了我的工作 ............................................................................................................. 324

    战争不属于人类 ......................................................................................................................... 328

    谷歌+终极算法=天网? ........................................................................................................... 330

    进化的第二部分 ......................................................................................................................... 335

    后记 ............................................................................................................................................. 339

    致谢 ............................................................................................................................................. 342

    延伸阅读 ..................................................................................................................................... 343

    第一章 ..................................................................................................................................... 345

    第二章 ..................................................................................................................................... 347

    第三章 ..................................................................................................................................... 349

    第四章 ..................................................................................................................................... 352

    第五章 ..................................................................................................................................... 354

    第六章 ..................................................................................................................................... 356

    第七章 ..................................................................................................................................... 360 第八章 ..................................................................................................................................... 362

    第九章 ..................................................................................................................................... 364

    第十章 ..................................................................................................................................... 366

    推荐序

    作为一位机器学习领域研习10年以上的专业技术人员,我当

    初入行的时候没有想到,短短的10年间,这项技术会如此快速地

    改变众多行业,并影响全球数十亿用户生活的方方面面。在今

    天,当你用今日头条浏览新闻资讯的时候,当你用网易云音乐查

    看推荐歌单的时候,当你在百度搜索信息的时候,当你在互联网

    金融平台申请借款的时候,甚至在你调戏

    Siri和小冰的时候,其实都是其背后的机器学习算法在云端服务器

    中为你默默服务。但对于这样一种重要技术,市面上一直缺少一

    本适合普通读者的入门科普读物,而众多的专业书籍要求读者具

    备一定的高等数学和计算机基础算法知识,并不适合科普的需

    要。直到中信出版社的朋友将这本书的翻译稿推荐给我时,我欣

    慰地发现,这正是想了解一点机器学习的普通读者所需要的啊。

    本书的作者多明戈斯是华盛顿大学的终身教授,也是一位在机器

    学习领域具有20年研究经历的资深科学家。多明戈斯一直致力于

    融合各种机器学习算法的优势,提出一种可以解决所有应用问题

    的通用算法,即终极算法。在这本书里,作者详细地阐述了他的

    思路。其实我个人在阅读本书的过程中,始终对“终极算法”的提

    法充满怀疑。在我看来,机器学习作为人工智能领域的主流技

    术,在现实社会中一直以技术工具的面目为人所知。不同的技术

    流派和相应算法往往可以很好地解决一些问题,却对另一些问题

    一筹莫展。所谓的终极算法真的存在吗?如果存在,有价值吗?

    可以拿内燃机举个例子,就我这个外行来说,也知道存在活

    塞式发动机、涡喷发动机、涡轴发动机、涡扇发动机、涡桨发动

    机、冲压发动机等不同种类的内燃机。不同的内燃机特性迥异,适用的工况也不尽相同。小到家用小汽车,大到导弹驱逐舰,人

    类制造的各种机动设备,都可以根据自己的效率需求、动力需求、寿命需求,乃至启动速度等多种需求维度选择发动机种类。

    如果有人非要搞个终极内燃机,并企图用这种内燃机替代现存的

    各类内燃机,为所有大大小小、需求不同的机动设备提供统一动

    力,估计大概率是要失败的。这种通用的终极内燃机如果能搞出

    来,在大部分领域肯定竞争不过各领域的专用内燃机,或者成本

    太高,或者能效太低。

    带着这种疑问,我通篇读下来之后才发现作者的另一层用

    意。诚如作者所说,很多普通人可能没有意识到自己的生活中机

    器学习算法的影响已经无处不在,机器学习已经在逐渐接管现实

    世界。大众对这样一种技术的认知程度和该技术的重要性相比显

    得远远不够,在不远的未来,了解机器学习并有能力利用机器学

    习改进自己工作的人在职业发展上会具备巨大的优势。“不要和人

    工智能对抗,要让人工智能为你服务”是作者诚挚的忠告。而要利

    用好机器学习这个工具,并不一定需要读一个计算机博士学位,但有必要了解一些基本的概念,了解各种技术的优缺点和能力边

    界。正如一位称职的驾驶员不必了解具体怎么制造汽车发动机,但是对发动机的工作原理和种类还是需要略知一二的。因此,相

    比一板一眼地介绍机器学习的典型算法,作者设计了一个更引人

    入胜的套路:先抛出一个“是否存在一种终极算法”的问题,然后

    带着读者一章一章地回顾机器学习发展史上的重要流派和代表算

    法。每回顾一派,就鼓励读者思考终极算法应该如何借鉴这类算

    法的优点。好奇的普通读者带着疑问读完本书后,不论其是否相

    信终极算法的存在,至少对各类算法都会有一定的印象。以讨论

    终极算法为名,行科普之实,到这一步,我觉得作者的目的已经

    达到一半了。

    另外,在文末作者还提到,无论终极算法是否存在,他希望

    这个大胆的问题能够激发部分读者的好奇,甚至被这个问题吸引

    成为机器学习的专业研究人员。确实,每一种学科都需要至高的理想驱动向前,就如同物理的大一统理论,当无数杰出的天才为

    一个终极问题孜孜以求时,就算这个问题本身在这些人的有生之

    年可能没有答案,但是这个学科一定会因为这些伟大的探索历程

    取得辉煌的进步。我想,这也许是作者因为对机器学习的热爱夹

    带的另一个私货吧。

    作为今日头条的一位算法架构师,我倒是希望头条用户都能

    陷入作者的“圈套”,带着好奇心,好好读读这本书。如果大多数

    用户都能了解一些机器学习的基础知识,应该就能够更好地和推

    荐算法互动,不断把算法调教得更好,更符合自己真正的兴趣,而不会因为算法一开始推荐的内容不好就放弃这个产品。诚如作

    者所说,也许在未来,对应人类的心理学,也会出现机器心理

    学,了解一点机器人的心理,会让你和机器的互动更有效率,也

    会让机器更快地成为你忠实、不知疲倦的助手。

    曹欢欢今日头条首席算法构架师

    序

    你也许不知道,但机器学习就在你身边。当你把查询信息输

    入搜索引擎时,它确定该向你显示哪些搜索结果(包括显示哪些

    广告)。当你打开邮箱时,大部分垃圾邮件你无法看到,因为计算

    机已经把这些垃圾邮件过滤了。登录亚马逊网站购买一本书,或

    登录网飞

    (Netflix)公司网站观看视频,机器学习系统会推荐一些你可能喜

    欢的产品。脸书

    (Facebook)利用机器学习决定该向你展示哪些更新,推特

    (Twitter)也同样会决定显示哪些文章。你使用计算机的任何时

    候,都有可能涉及机器学习。 传统上认为,让计算机完成某件事情的唯一方法(从把两个

    数相加到驾驶飞机),就是非常详细地记录某个算法并解释其如何

    运行。但机器学习算法就不一样:通过从数据中推断,它们自己

    会弄明白做事方法。掌握的数据越多,它们的工作就越顺利。现

    在我们不用给计算机编程,它们自己给自己编程。

    机器学习不仅存在于网络空间,它还存在于你每天的生活

    中:从你醒来到入睡,每时每刻无所不在。

    早上7点你的收音机闹钟响起,播放的是你之前从未听过的

    歌曲,但你的确很喜欢这首歌。Pandora电台(可免费根据你的喜

    好播放歌曲)的优势在于,根据你听的音乐,电台掌

    握了你的品位,就像你自己的radio jock账号一样。这些歌曲本身

    可能借助机器学习来播放。接下来你吃早餐,阅读早报。早报在

    几个小时前印好,利用学习算法,印刷过程经过仔细调整,以免

    报纸出现折痕。你房间的温度刚刚好,电费明显少了很多,因为

    你安装了Nest智能温控器。

    你开车去上班,车持续调整燃油喷射和排气再循环,以达到

    最佳的油耗。你利用一个交通预报系统(Inrix)来缩短高峰时段

    上下班的时间,这当然能减缓你的压力。上班时,机器学习帮你

    克服信息超载。你利用数据立方体来汇总大量数据,从每个角度

    观察该立方体,获取最有用的信息。你要决定是采用布局方案

    A,还是采用布局方案B,以便为网站带来更多的业务。网络学习

    系统会尝试两种布局方案,并给予反馈。你得对潜在供应商的网

    站进行调查,但网站的语言是外语。没关系,谷歌会自动为你翻

    译。E–mail会自动分类并归入相应的文件夹,只把最重要的信息

    留在邮箱里,非常方便。文字处理软件帮你查找语法和拼写错

    误。你为即将到来的行程查找到一个航班,但决定推迟购买机

    票,因为必应旅行(Bing Travel)预测票价很快会下降。也许你没有意识到以上这些,要不

    是机器学习帮助你,你可能要马不停蹄地亲自做很多事情。你在

    休息时间查看自己的共同基金,大部分基金利用学习算法来选

    股,其中的某些基金完全由学习系统运作。午餐时间到了,你走

    在大街上,想找个吃饭的地方,这时候用手机上的 Yelp点评应用

    程序来帮助你。你的手机充满了学习算法,它们努力工作,改正

    拼写错误、理解口头指令、减少传输误差、识别条形码,还有其

    他很多事情。手机甚至可以预测你接下来会做什么,然后依此给

    出建议。例如,当你吃完午餐后,它会小心翼翼地提示你,下午

    和外地来访者的会面要推迟,因为她的航班延误了。

    下班时夜幕已降临,你走向自己的车,机器学习会保证你的

    安全,监测停车场监控摄像头的录像,如果探测到可疑人的行

    动,它会提示不在场的安保人员。在回家路上,你在超市门口停

    车,走向超市货物通道,通道借助学习算法进行布置:该摆放哪

    些货物,通道末尾该展示哪些产品,洋葱番茄辣酱是否该放在调

    味酱区域,或是放在墨西哥玉米片旁边。你用信用卡付款。学习

    算法会向你发送信用卡支付提示,并在得到你的确认后完成支

    付。另外一个算法持续寻找可疑交易,如果它觉得你的卡号被

    盗,则会提示你。还有一种算法尝试评估你对这张卡的满意度,如果你是理想的客户但对服务不太满意,银行会在你决定换卡之

    前,为你提供更贴心的服务。

    你回到家,走到信箱旁,发现有朋友的一封来信,这是通过

    能阅读手写地址的学习算法派送的。当然也会有垃圾来信,由另

    外的学习算法进行选择。你停留了一会儿,呼吸夜晚清新凉爽的

    空气。你所在城市的犯罪率明显下降了,因为警察开始使用统计

    算法来预测哪里的犯罪率最高,并在那里集中巡警力量。你和家

    人共享晚餐。市长出现在新闻里,你为他投票,因为选举那天,学习算法确定你为“关键未投票选民”之后,他亲自给你打了电话。吃完晚餐,你观看球赛,两支球队都借助统计学习来挑选队

    员。你也可能和孩子们在Xbox上玩游戏,Kinect [1] 学习算法确

    定你在哪里、在做什么。你在睡前吃药,医生通过学习算法的辅

    助来设定和检测吃药的最佳时间。医生也可能利用机器学习来帮

    你诊断疾病,例如,分析X 射线结果并弄明白一系列非正常症

    状。

    机器学习参与了你人生的每个阶段。如果你为了参加 SAT大

    学入学考试(美国学术能力评估测试)而在网上学习,某学习算

    法会给你的练习短文打分。如果你申请商学院,且最近要参加

    GMAT(经企管理研究生入学考试),其中的一个文章打分工具就

    是一个学习系统。可能当你求职时,某学习算法会从虚拟文件中

    挑选出你的简历,并告诉未来的雇主:这位是很不错的人选,看

    看吧。最近公司给你加薪可能还多亏另外的学习算法。如果想买

    套房子,Zillow.com网站会估算你看中的每套房的价值,接着房子就有了着

    落。之后申请住房贷款,某学习算法会研究你的申请,并建议是

    否可以通过申请。最重要的是,如果你使用在线约会服务,机器

    学习甚至可能帮你找到人生挚爱。

    社会在不断变化,学习算法也是如此。机器学习正在重塑科

    学、技术、商业、政治以及战争。卫星、DNA(脱氧核糖核酸)

    测序仪以及粒子加速器以前所未有的精细程度探索自然,同时,学习算法将庞大的数据转变成新的科学知识。企业从未像现在这

    样了解自己的用户。在美国大选中,拥有最佳选举模型的候选人

    奥巴马最终战胜了对手罗姆尼,获得了竞选胜利。无人驾驶汽

    车、轮船、飞机分别在陆地、海面、空中进行生产前测试。没有

    人把你的喜好编入亚马逊的推荐系统,学习算法通过汇总你过去

    的购买经历就能确定你的喜好。谷歌的无人驾驶汽车通过自学,懂得如何在公路上平稳行驶,没有哪个工程师会编写算法,一步一步指导它该怎么走、如何从A地到达B地——这也没必要,因

    为配有学习算法的汽车能通过观察司机的操作来掌握开车技能。

    机器学习是“太阳底下的新鲜事”:一种能够构建自我的技

    术。从远古祖先学会打磨石头开始,人类就一直在设计工具,无

    论这些工具是手工完成的,还是大批量生产的。学习算法本身也

    属于工具,可以用它们来设计其他工具。“计算机毫无用处,”毕

    加索说,“它们只能给你提供答案。”计算机并没有创造性,它们

    只能做你让它们做的事。如果你告诉它们要做的事涉及创造力,那么就要用到机器学习。学习算法就像技艺精湛的工匠,它生产

    的每个产品都不一样,而且专门根据顾客的需要精细定制。但是

    不像把石头变成砖、把金子变成珠宝,学习算法是把数据变成算

    法。它们掌握的数据越多,算法也就越精准。

    现代人希望让世界来适应自己,而不是改变自己来适应世

    界。机器学习是100万年传奇中最新的篇章:有了它,不费吹灰

    之力,世界就能感知你想要的东西,并依此做出改变。就像身处

    魔法林,在你通过时,周围的环境(今天虚拟,明天现实)会进

    行自我重组。你在树木和灌木中选出的路线会变成一条路,迷路

    的地方还会出现指路标志。

    这些看似有魔力的技术十分有用,因为机器学习的核心就是

    预测:预测我们想要什么,预测我们行为的结果,预测如何能实

    现我们的目标,预测世界将如何改变。从前,我们依赖巫医和占

    卜师进行预测,但他们太不可靠;科学的预测就更值得信赖,但

    也仅限于我们能系统观察和易于模仿的事物,大数据和机器学习

    却大大超出这个范围。我们可通过独立的思维来预测一些常见的

    事情,包括接球和与人对话,但有些事情,即便我们很努力,也

    无法预测。可预测与难以预测之间的巨大鸿沟,可以交给机器学

    习来填补。 矛盾的是,尽管学习算法在自然和人类行为领域开辟了新天

    地,但它们仍笼罩在神秘之中。媒体每天都报道涉及机器学习的

    新闻:苹果公司发布Siri个人助理,IBM [2] 沃森(IBM 的超级计

    算机)在《危险边缘》游戏中战胜了人类,塔吉特(Target)能在

    未成年妈妈的父母发现之前通知她怀孕,美国国家安全局在寻找

    信息连接点……在这些新闻事件中,学习算法如何起作用仍不得

    而知。计算机“吞入”数以万亿的字节,并神奇地产生新的观点,关于大数据的书籍甚至也避谈“这个过程到底发生了什么”。我们

    一般认为学习算法就是找到两个事件之间的联结点,例如,用谷

    歌搜索“感冒药”和患感冒之间的联系。然而,寻找联结点与机器

    学习的关系就像是砖与房子的关系,房子是由砖组成的,但一堆

    砖头肯定不能称之为“房子”。当一项新技术同机器学习一样流行

    且具有革命性时,不弄明白其中的奥妙实在太可惜。模棱两可会

    导致误差和滥用。亚马逊的算法能断定当今世界人们在读什么

    书,这一点比谁都强。美国国家安全局的算法能断定你是否为潜

    在恐怖分子。气候模型可以判定大气中二氧化碳的安全水平。选

    股模型比我们当中的多数人更能推动经济发展。你无法控制自己

    理解不了的东西,这也是追求幸福的公民、专家或普通人需要了

    解机器学习的原因。

    本书的第一个目标就是揭示机器学习的秘密。只有工程师和

    机修工有必要知道汽车发动机如何运作,但每位司机都必须明白

    转动方向盘会改变汽车的方向、踩刹车会让车停下。当

    今极少有人知道学习算法对应的原理是什么,更不用说如何使用

    学习算法。心理学家丹·诺曼(Don Norman)创造了“概念模型”

    (conceptual model)这个新词,代指为了有效利用某项技术而需

    粗略掌握的知识。本书就将介绍机器学习的概念模型。

    并不是所有算法的工作原理都相同,这些差异会产生不同的

    结果,比如亚马逊和网飞的推荐系统。假设这两个系统试着根据“你喜欢的东西”来对你进行引导,亚马逊很有可能会把你带到你

    之前常浏览的书籍类别,网飞则可能会把你带到你不熟悉且似乎

    有点奇怪的区域,并引导你爱上那里。在本书当中,我们会看到

    诸如亚马逊、网飞之类的公司使用的各式各样的算法。与亚马逊

    相比,网飞公司的算法对你的爱好理解得更深(尽管还是很有

    限),然而具有讽刺意味的是,这并非意味着亚马逊也应该利用这

    个算法。网飞的商业模式是依靠晦涩的电影、电视节目的长尾效

    应来推动需求,这些电影和节目的成本很低。它一般不推荐大

    片,因为你的会员订阅费可能有限。亚马逊则没有这样的问题:

    尽管擅长利用长尾效应,但它同样乐意把更昂贵的热销商品卖给

    你,这也会简化其物流工作。对于那些奇怪的产品,如果是订阅

    会员可免费享用的,我们可能会乐意去尝试,而如果需要另外掏

    钱,我们去选择它们的可能性就小得多。

    每年都会出现上百种新的算法,但它们都是基于几个相似的

    基本思路。为了明白机器学习如何改变世界,你有必要理解这些

    思路。本书就将对此进行介绍。学习算法并不是那么深奥难懂,除了运用在计算机上,对于我们来说很重要的问题都可以通过学

    习算法找到答案,比如:我们如何学习?有没有更好的方法?我

    们能预测什么?我们能信任所学的知识吗?对这些问题,机器学

    习的各个学派有不同的答案。

    机器学习主要有5个学派,我们会对每个学派分别介绍:符

    号学派将学习看作逆向演绎,并从哲学、心理学、逻辑学中寻求

    洞见;联结学派对大脑进行逆向分析,灵感来源于神经科学和物

    理学;进化学派在计算机上模拟进化,并利用遗传学和进化生物

    学知识;贝叶斯学派认为学习是一种概率推理形式,理论根基在

    于统计学;类推学派通过对相似性判断的外推来进行学习,并受

    心理学和数学最优化的影响。在构建机器学习的目标推动下,我

    们将回顾过去100年的思想史,并以新的观点来看待这段历史。机器学习的5个学派都有自己的主算法,利用这种万能学习算

    法,原则上,你可以通过任何领域的数据来挖掘知识:符号学派

    的主算法是逆向演绎,联结学派的主算法是反向传播,进化学派

    的主算法是遗传编程,贝叶斯学派的主算法是贝叶斯推理,类推

    学派的主算法是支持向量机。在实践中,这些算法可能在有些工

    作中可用,而在其他工作中不可用。我们真正想要寻找的是能够

    综合这5种算法的终极算法。虽然有些人认为这难以实现,但对

    机器学习领域的人来说,这个梦想赋予我们力量,促使我们夜以

    继日地工作。

    如果存在终极算法,那么它可以通过数据学得包括过去的、现在的以及未来的所有知识。创造终极算法将是科学历史上最伟

    大的进步之一。它可以加速各类知识的进步,并以我们现在甚至

    无法想象的方式改变世界。终极算法与机器学习的关系就像标准

    模型和粒子物理学或中心法则与分子生物学的关系:该统一原理

    能理解人类当今知道的一切,并为未来数十年或者数百年的进步

    奠定基础。今天我们面临许多难题,比如制造家用机器人和治愈

    癌症,终极算法就是解决这些难题的关键。

    以癌症为例。治愈癌症十分困难,因为它往往是一种综合疾

    病。肿瘤可由各种原因诱发,且在转移时会发生突变。杀死肿瘤

    细胞最可靠的方法是对其基因进行排序,弄明白哪些药物可以抵

    抗癌细胞(这种方法不会对人造成伤害,患者必须提供基因和用

    药史),甚至为你专门研制一种新药。没有哪个医生能够掌握该过

    程所需的所有知识。对于机器学习来说,这却是再合适不过的任

    务。实际上,与亚马逊和网飞每天所做的搜索工作相比,它的工

    作是为你找到正确的疗法,而不是合适的书籍或者电影,而且它

    的工作更为复杂,也更具挑战。遗憾的是,虽然当今的学习算法

    能以超出人类水平的精确度来诊断疾病,但治愈癌症仍远远超出它们的理解范围。如果我们可以找到终极算法,这将不再是难

    题。

    因此,本书的第二个目标就是帮你创造终极算法。你可能会

    认为这需要高深的数学运算和严谨的理论方面的工作,正相反,它需要暂时放下数学奥秘,来观看各种学习行为包罗万象的模

    型。对外行人来说,他们就像从远方赶到终极算法这片森林,从

    某些角度看,他们比专家更适合创造终极算法,因为专家对某些

    学科已经过于投入。一旦我们有了概念性的解决方法,就能补充

    数学上的细节,但这不是本书的目标和重点。我们之所以谈论每

    个学派,是为了收集它们的观点,并找到其适用之处。请记住,没有哪个盲人能了解整头大象。我们会尤其关注哪个学派能对治

    疗癌症做出贡献,也关注该学派的缺失。然后,我们会将所有观

    点集中,一步步地变成解决方案——这个解决方案可能还不是终

    极算法,但已是我们能找到的最接近终极算法的方案。希望它能

    解放你的大脑,让你大胆想象。当你阅读本书时,如果觉得某些

    章节读起来困难,可以随意略读甚至跳过它们。本书的概要才是

    重中之重,当明白所有学派的观点之后,如果你重读那些困难的

    章节,收获可能会比之前更多。

    我研究机器学习已经有20余年了。我对机器学习的兴趣因一

    本书而起,大四时我在书店看到这本书名很奇怪的书——《人工

    智能》(Artificial Intelligenc )。那本书只有一个章节是关于机器学

    习的,但读那个章节时,我立即确定,学习是实现人工智能的关

    键,而且当时技术水平如此原始,我也许能做点什么。所以我搁

    置了读MBA(工商管理硕士)的计划,到加利福尼亚欧文分校攻

    读博士。机器学习当时是一个小众且鲜为人知的领域,研究人员

    寥寥无几,但加利福尼亚大学却拥有一个巨大的研究团队。一些

    同学中途放弃了,因为他们看不到机器学习的未来,而我坚持了

    下来。对我来说,没有什么能比教计算机学习更有吸引力的了:如果我们做到这一点,其他问题就会迎刃而解。5年后我毕业了,那时数据挖掘技术十分流行,我开始写这本书。我的博士论文结

    合了符号学派和类推学派的观点。过去10年,我一直在整合符号

    学派和贝叶斯学派的观点,最近又在尝试整合它们与联结学派的

    观点。是时候进行下一步研究,并尝试综合这 5个范式了。

    写这本书时,我的脑海里浮现出各式各样但又有相似之处的

    读者。

    围绕大数据以及机器学习的讨论充满争议,如果你对此感到

    好奇,且怀疑有比论文上看到的更为深层次的东西,那么这本书

    就是你进行革命的指南。

    如果你的主要兴趣是机器学习的商业用途,那么本书至少能

    通过6种方法帮助你:成为分析学中更精明的消费者;充分利用

    你的数据专家;减少许多数据挖掘项目的隐患;看看如果不买手

    写编码软件,你能让什么进行自动操作;降低信息系统的僵硬

    度;期待正朝你走来的新技术。我见过太多浪费大量时间和金钱

    去解决难题的人,他们使用了错误的学习算法,或者误解了学习

    算法的含义。要避免这些惨败,实际上,你只需要阅读这本书。

    如果你是普通人或者决策者,关注由大数据和机器学习引发

    的社会和政治问题,那么本书将为你提供该技术的入门知识:什

    么是机器学习,机器学习能干什么、不能干什么。本书没有让你

    觉得乏味的复杂细节。从隐私问题到未来的工作,以及机器人化

    引起战争的道德观,我们会看到真正的问题所在,以及如何正确

    思考。

    如果你是科学家或者工程师,那么机器学习肯定是你不想错

    过的有力武器。在大数据时代(即便是中型数据时代),陈旧的、靠得住的统计工具并不会让你走得更远。你需要的是机器学习的非线性技术来精确模仿多种现象,它会带来全新的、科学的世界

    观。今天,“范式转移”被人们用得过于随意,但我可以毫不夸张

    地说,本书要讲的内容就是和“范式转移”相关。

    如果你是机器学习专家,那么你可能对本书的大部分内容已

    经相当熟悉,但你仍会发现其中有许多新颖的看法、经典的观

    点,以及有用的例子和类比。很大程度上,我希望本书能提出与

    机器学习相关的、新的看法,甚至能让你开始思考新的方向。我

    们身边到处是容易达成的目标,我们理应追寻这种目标,但我们

    也不应忽略不远处就有更大的目标(关于这一点,我希望你们能

    原谅我诗意地用“终极算法”来指通用型学习算法)。如果你是学

    生,无论你多大,是考虑该选什么专业的高中生,还是决定该研

    究什么领域的本科生,或者是考虑转行、经验丰富的专家,我希

    望本书能让你对这个令人着迷的领域感兴趣。当今世界极度缺乏

    机器学习专家,如果你决定加入这一行列,你不仅能得到令人激

    动的时刻和丰厚的物质回报,还有服务社会的大好机会。如果你

    已经在研究并学习主算法,我希望本书能帮你了解它的历史。如

    果你在旅途中偶然发现本书,也值得你用心阅读。

    最后要强调一点,如果你渴望奇迹,那么机器学习对你来说

    就是一场精神盛宴。我诚挚地邀请你一同前往。

    [1] Kinect是微软对Xbox360体感周边外设正式发布的名字。——编者注

    [2] IBM,国际商业机器公司。——编者注 第一章机器学习革命

    我们生活在算法的时代。一两代人以前,提到“算法”这个

    词,可能多数人会脑中一片空白。当今,文明社会的每个角落都

    存在算法,日常生活的每分每秒也都和算法有关。算法不仅存在

    于你的手机或笔记本电脑,还存在于你的汽车、房子、家电以及

    玩具当中。当人们进出银行时,银行系统就是由各种算法交织而

    成的庞大集合体。算法安排航班,也驾驶飞机。算法能经营工

    厂、进行交易、运输货物、处理现金收益,还能保存记录。如果

    所有算法都突然停止运转,那么就是人类的世界末日。

    算法就是一系列指令,告诉计算机该做什么。计算机是由几

    十亿个微小开关(称为晶体管)组成的,而算法能在一秒内打开

    并关闭这些开关几十亿次。最简单的算法是触动开关。

    一个晶体管的状态就是一个比特信息:如果开关打开,信息就是

    1;如果开关关闭,信息就是0。银行的计算机的某个比特信息会

    显示你的账户是否已透支。美国社会保障总署的计算机的某个比

    特信息表明你是活着还是已死亡。第二简单的算法是:把两个比

    特结合起来。克劳德·香农以“信息论之父”而为人所知,他第一个

    意识到晶体管的活动就是在运算,因为晶体管开了又关,是对其

    他晶体管的回应(这是他在麻省理工学院的硕士论文——有史以

    来最有意义的硕士论文)。如果 A晶体管只有在B和C晶体管都打开时才打开,那么这时它就是在做小型的逻辑运算。如果 A晶

    体管在B和C晶体管其中一个打开时才打开,就是另外一种小型

    逻辑运算。如果A晶体管在B晶体管任何关闭的时候打开,或者

    反过来,这又是第三种运算。信不信由你,所有算法,无论多复

    杂,都能分解为这三种逻辑运算:且,或,非。利用不同的符号

    来代替“且”“或”“非”运算,简单的算法就可以用图表来表示。例

    如,如果发烧可由感冒或者疟疾引起,那么你应该用泰诺来治疗

    发烧和头疼,可以用图1–1表示。

    图1–1

    通过结合许多这样的逻辑运算,我们可以进行极其复杂的逻

    辑推理。人们往往认为计算机只和数字有关,其实并非如此,它

    完全关乎逻辑。数字和算术都是由逻辑构成的,而计算机的所有

    其他部分也是如此。想把两个数相加?可以由晶体管的组合体来

    完成。想赢得《危险边缘》智力比赛?也可以由晶体管的组合体

    来完成(当然,这个组合体庞大得多)。

    即便如此,为了做不同的事而制造新的计算机代价过于昂

    贵。当然,现代计算机是各种晶体管的大集合,能做许多不同的

    事,这取决于哪些晶体管被激活。米开朗琪罗说过,他所做的一

    切,就是从大理石石块中看出雕像,然后将多余的石头刻掉,直

    到雕像的形状显现出来。同样,算法排除计算机中多余的晶体管,直到出现想要的功能,无论是客机的自动驾驶仪,还是皮克

    斯的新电影,原理都是这样。

    一种算法不仅是简单的一套指令,这些指令必须精确且不能

    模糊,这样计算机才能够执行。例如,食谱并不算一种算法,因

    为食谱没有明确给出做事的顺序,或者具体每一步是怎样的。一

    勺白糖到底是几克?每个尝试新食谱的人都知道,跟着食谱做,可能会做出很美味的食物,也可能会做得一塌糊涂。相比之下,算法总能得出同样的结果。即便食谱明确指出需要半盎司白糖,计算机也不知道如何执行,因为计算机不知道什么是白糖、什么

    是盎司。如果我们想对厨用机器人编程,让它来做蛋糕,我们要

    通过视频教它如何辨认白糖、如何拿起勺子等(我们现在仍在努

    力)。计算机必须知道如何执行算法,直到打开及关闭指定的晶体

    管。因此,食谱离算法还很远。

    另一方面,下面是玩井字棋的算法:

    如果你或对手有两粒连子,占据剩下的角落。

    否则,如果两边有两个连子的走法,就那样走。

    否则,如果正中央是空的,走正中央。

    否则,如果你的对手走到角落,占据他的对角。

    否则,如果有空白的角落,占据它。

    否则,占据任意空白的角落。

    这个算法有很大的优点,那就是它绝对不会输。当然,它仍

    忽略了许多细节,比如在计算机的记忆中,棋盘如何表示,而棋

    的走法又如何改变这种表示方法。例如,每个角落我们有两个比

    特,如果中间是空的,值就是00;如果有一个圈,值就变成 01;如果有一个叉,值就变成10。即便如此,这也足够精确、清晰,能让有能力的编程员来填补被忽略的空白。它还有一个好处,就

    是不用我们自己指定算法,细到单个晶体管。在构建数据存储块

    时,我们可以使用之前存在的算法,而且有很多这样的算法供选

    择。

    算法是一套严格的标准。人们常说,你没法真正了解某样东

    西,直到你能用一种算法来将其表达出来(理查德·费曼曾说,“如

    果我无法创造某样东西,那么也就无法理解它”)。

    方程式对物理学家和工程师来说就是谋生工具,而这也仅仅是一

    种特殊算法。例如,牛顿第二定律,可以说是有史以来最重要的

    等式,告诉你用物体的质量乘以其加速度,可以算出作用在物体

    上的力。该定律还隐含地告诉你,加速度等于作用力除以质量,要弄明白这一点,只需一个运算步骤。在科学的任何领域,如果

    某个理论无法用算法表示,那么它就不是很严谨(更别提你无法

    用计算机来解决这个问题,因为你能让计算机替你做的事实在太

    有限)。科学家提出理论,工程师制造设备,计算机科学家提出算

    法,这和理论及设备都有关。

    设计算法并没有那么简单。这个过程充满陷阱,什么事都不

    能想当然。如果你的一些构建已经出错,就得找其他方法。设计

    算法最重要的一点就是,你得用一种计算机能理解的语

    言来将算法记录下来,比如Java或者Python(从这个角度看,就

    是一个程序)。接下来,你得对其进行纠错:找出每个误差并修

    正,直到计算机能够运行程序,而不至于搞砸。一旦你有了能完

    成你心愿的程序,就轻松多了。计算机会以飞快的速度,按我们

    的要求办事,而且毫无怨言。世界上的每个人都能享用你的创作

    成果。如果你愿意,这个成果可以一文不收;当然,如果你解决

    的问题足够有意义,这个成果也可以让你成为亿万富翁。程序员

    (创造算法并将其编码的人)是一个“小神灵”,能任意创造不同的世界。甚至你也可以说《圣经·创世记》里的神也是“程序员”:

    语言(而不是统治权)才是他创造世界的工具。语言构成了这个

    世界。当今时代,坐在沙发上利用笔记本电脑,你就可以成为一

    个“神”。你完全可以想象一个世界,并实现它。

    有朝一日,计算机科学家会互相依赖各自的成果,然后为新

    事物创造算法。这些算法会与其他算法相结合,目的是利用其他

    算法的成果,反过来产生能服务更多算法的成果。每一秒钟,数

    十亿计算机里的数十亿晶体管会打开关闭数十亿次。算法形成新

    型生态系统,它将生生不息,具有无可比拟的生命多样性。

    然而,不可避免地,在这个“伊甸园”里也会有狡猾的人存在,人们称之为“复杂性怪兽”。和九头蛇一样,这个复杂性怪兽有

    很多头,其中一个就是空间复杂性,即为了储存在计算机内存

    中,一个算法所需信息的比特数量。如果计算机无法提供该算

    法所需的内存,那么这个算法就没用,必须忽略。接着是邪恶

    的同类——时间复杂性:该算法运行多长时间,也就是说,在

    产生想要的结果之前,算法利用及重新利用晶体管的步骤有多

    少。如果算法运行时间太久,我们等不了,那么这个算法也没

    用。复杂怪兽最恐怖的一面就是人类的复杂性。当算法变得很

    复杂以致人类大脑已无法理解,当算法不同部分的交互过多且

    过于深入时,误差就会悄然潜入。我们找不到这些误差,也就

    无法纠正它们,算法也就不会做我们想做的事。即便我们让它

    运行起来,它也会停下来。对使用它的人来说,它没必要那么

    复杂,而且它和其他算法也合作得不好,这为日后埋下隐患。

    每位计算机科学家每天都在和“复杂性怪兽”做斗争。如果科

    学家输了这场斗争,复杂性就会渗入我们的生活。你可能已经注

    意到,很多这样的斗争科学家已经输了。即便如此,我们也会继

    续构建我们的算法之塔,并迎接越来越大的挑战。每一代新的算法都要在之前的基础上构建,除了这代算法的复杂性,它们还面

    临之前算法的复杂性。塔会变得越来越高,会覆盖整个世界,但

    它也会变得越来越脆弱,像一座纸片做的房子,随时都会倒塌。

    算法里的微小误差可能导致价值10亿美元的火箭爆炸,或者可能

    导致停电,造成数百万美元的损失。

    算法以意想不到的方式进行交互,股票市场就会崩溃。

    如果程序员是“小神”,复杂性怪兽就是魔鬼。慢慢地,魔鬼

    会赢得战争。

    总得有个更好的方法来与魔鬼做斗争。

    学习算法入门

    每个算法都会有输入和输出:数据输入计算机,算法会利用

    数据完成接下来的事,然后结果就出来了。机器学习则颠倒了这

    个顺序:输入数据和想要的结果,输出的则是算法,即把数据转

    换成结果的算法。学习算法能够制作其他算法。通过机器学习,计算机就会自己编写程序,就用不到我们了。

    哇!

    计算机会自己编写程序。现在看来这是一个强大的想法,甚

    至可能有点吓人。如果计算机开始自己编程,那么我们将如何控

    制它们?我们会看到,人类可以很好地控制它们。可能会有人当

    即反对,这听起来太美好了,不像真的。当然,编写算法需要智

    力、创造力、问题解决能力,这些都是计算机没有的。如何把机

    器学习与魔法区分开来?的确,今天为止,人们能编写许多计算

    机无法学习的程序。可令人更为惊讶的是,计算机却能学习人们

    无法编写出来的程序。我们会开车、会辨认字迹,但这些技能都是潜意识发挥出来的,无法向计算机解释这些事情是如何完成

    的。但是,如果我们把关于这些事情的足够多的例子交给学习算

    法,该算法会很乐意弄明白怎样独立完成这些事情,这时我们就

    可以放手让算法去做了。邮局正是通过这种方法来识别邮政编

    码,自动驾驶汽车也是这样才得以实现在路上跑。

    解释机器学习的力量的最好方法,也许就是将其与其他低技

    术含量的活动进行类比。工业社会,商品由工厂制造,这也意味

    着工程师必须弄明白商品如何通过零件组装起来、这些零件如何

    生产等,细到生产原料。这是一项大工程。计算机是人类发明的

    最复杂的产品,计算机设计、工厂生产、程序运行都涉及大量的

    工作。还有另外一种方法能让我们得到一些想要的东西:让自然

    规律去塑造它们。在农业当中,我们播种,确保种子有足够的水

    分和营养,然后收割成熟的作物。为什么技术不能这样?完全可

    以,而这也是机器学习的承诺。学习算法是种子,数据是土壤,被掌握的程序是成熟的作物。机器学习专家就像农民,播下种

    子,灌溉,施肥,留意作物的生长状况,事事亲力亲为,而不是

    退居一旁。

    一旦我们这样看待机器学习,随即也会发生两件事:

    第一,我们掌握的数据越多,我们能学的也越多。没有数

    据?什么也学不到。大数据?很多东西可以学习。这也是机器学

    习无处不在的原因,因为有飞速增长的数据。如果你在超市购买

    机器学习,其包装上可能会写着“只需添加数据”。第二,机器学

    习是一把剑,利用这把剑可以杀死复杂性怪兽。只要有足够的数

    据,一段只有几百行代码的程序可以轻易生成拥有上百万行代码

    的程序,而且它可以为解决不同问题不停产生不同的程序。这可

    以显著降低程序员工作的复杂度。当然,就像对付九头蛇,我们砍掉它的头,会立即长出新头,但长出的头会变小,而且头的生

    长也需要时间,因此我们仍有可能胜出。

    我们可以把机器学习当作逆运算,正如开平方是平方的逆运

    算、整合是分化的逆运算。正如我们会问“什么数的平方是16”,或者“导数为x+1的函数是什么”,我们也会问“什么算法会得出该

    结果”。我们很快会看到,怎样将这个观点运用到具体的学习算法

    中。

    有些学习算法学习知识,有的则学习技能。“所有人都会死”

    是知识,骑单车是技能。在机器学习中,知识往往以统计模型的

    形式出现,因为多数知识都是可以统计的:所有人都会死,但只

    有4%是美国人。技能往往以程序的形式出现:如果马路向左弯

    曲,那么向左转动车头;如果一只鹿跳到你面前,那么立刻刹车

    (很遗憾,在写这本书时,谷歌的自动驾驶汽车仍会把被风吹起

    的塑料袋和鹿弄混)。通常,这些程序都很简单,复杂的是它们的

    核心知识。如果你能判断哪些邮件是垃圾邮件,那么你也就能判

    断该删除哪些邮件。如果你能在象棋游戏中判断这盘棋自己的优

    势在哪里,那么你也就懂得该怎么走(能让你处于最有利地位的

    一步)。

    机器学习有许多不同的形式,也会涉及许多不同的名字:模

    式识别、统计建模、数据挖掘、知识发现、预测分析、数据科

    学、适应系统、自组织系统等。这些概念供不同群体使用,拥有

    不同的联系。有些有很长的半衰期,有些则较短。在本书中,我

    用“机器学习”一词泛指所有这些概念。

    机器学习有时会和人工智能(AI)混淆。严格来讲,机器学

    习是人工智能的子域,但机器学习发展得如此壮大且成功,现已

    超越以前它引以为傲的母领域。人工智能的目标是教会计算机完成现在人类做得更好的事,而机器学习可以说就是其中最重要的

    事:没有学习,计算机就永远无法跟上人类的步伐;有了学习,一切都与时俱进。

    在信息处理这个生态系统中,学习算法是顶级掠食者。数据

    库、网络爬虫、索引器等相当于食草动物,耐心地对无限领域中

    的数据进行蚕食。统计算法、线上分析处理等则相当于食肉动

    物。食草动物有必要存在,因为没有它们,其他动物无法存活,但顶级掠食者有更为刺激的生活。数据爬虫就像一头牛,网页相

    当于它的草原,每个网页就是一根草。当网络爬虫进行破坏行动

    时,网站的副本就会保存在其硬盘当中。索引器接着做一个页面

    的列表,每个词都会出现在页面当中,这很像一本书后的索引。

    数据库就像大象,又大又重,永远不会被忽略。在这些动物当

    中,耐心的野兽飞快运转统计和分析算法,压缩并进行选择,将

    数据变为信息。学习算法将这些信息吞下、消化,然后将其变成

    知识。机器学习专家在计算机科学家中就是一种精英式的“神

    职”。许多计算机科学家,尤其是更老的那一代,并不如他们想的

    那样能很好地理解机器学习。这是因为,计算机科学通常需要的

    是准确思维,但机器学习需要的是统计思维。例如,如果有条规

    定是“垃圾邮件标记的正确率是99%”,这并不意味存在缺陷,而

    可能意味这是你的最好水平,已经很好用了。这种思维上的差别

    很大程度上也解释了为什么微软能赶上网景公司,但想赶上谷歌

    却困难得多。说到底,浏览器只是一个标准的软件,而搜索引擎

    则需要不同的思维模式。

    之所以说机器学习研究者是超级计算机迷的另外一个原因,就是当今世界急需他们,但他们寥寥无几。按照计算机科学严格

    的标准,这样的人数量就更少了。蒂姆·奥莱利认为,“数据科学

    家”是硅谷最热门的职业。根据麦肯锡全球研究院估计,截至 2018

    年,仅美国就需要再培养14万~19万机器学习专家才够用,另外还需要150万有数据头脑的经理。机器学习的应用爆发得如此突

    然,连教育都无法跟上其步伐,同时,人才奇缺也是因为这门学

    科在人们看来很难而令人望而生畏。教科书很可能会让你感到数

    学很难,然而,这个困难表面看起来很大,其实并不是。机器学

    习所有的重要观点可以不用通过数学表示出来。当你读这本书

    时,甚至可能会发现,你发明了自己的学习算法,而且看不到一

    个方程式的影子。

    工业革命使手工业自动化,信息革命解放了脑力劳动,而机

    器学习则使自动化本身自动化。没有机器学习,程序员会成为阻

    挠进步的障碍。有了机器学习,进步的步伐就会加快。如果你是

    一个懒惰又不那么聪明的计算机科学家,机器学习就是理想的职

    业,因为学习算法会完成所有事情,功劳却是你的。从另一方面

    讲,学习算法会让我们失业,这也只是我们应受的惩罚。

    将自动化带入新的高度,机器学习革命会带来广泛的经济及

    社会变革,正如互联网、个人计算机、汽车以及蒸汽机在当时对

    社会和经济的影响那样。这些变革已经明显存在的领域就是商业。

    为何商业拥护机器学习

    为什么谷歌比雅虎要有价值得多?它们都是用户登录最多的

    网站,都靠在网页上登广告赚钱。它们都用拍卖的方式销售广

    告,用机器学习来预测用户点击某广告的概率(概率越大,广告

    价值越大),但谷歌的机器学习就比雅虎要好很多。这不是它们市

    场价值差异巨大的唯一原因,却是主要原因。如果没有达到预测

    的点击量,对广告商来说就是浪费机会,对网站来说是收益损

    失。谷歌每年的收入是500亿美元,预测点击率每上升 1%,就可

    能意味着每年为公司带来额外5亿美元的收入。难怪谷歌是机器

    学习的铁杆粉丝,雅虎和其他公司也在奋起直追。 网络营销仅仅是巨大变革中的一种表现形式。无论什么市

    场,生产商和用户在交易发生之前,都需要进行联系。在互联网

    出现之前,交易的主要障碍就是实地交易。你只能从当地的书店

    购买书籍,而当地书店的书架空间又有限。但当你可以随时把所

    有书下载到电子阅读器时,问题就变成了可供选择的书太多。你

    怎么浏览书店里上百万不同名字的书?同样的问题也出现在其他

    信息产品当中:视频、音乐、新闻、推特文章、博客、网页。这

    个问题还会出现在能够远程购买的产品和服务当中:鞋子、鲜

    花、小配件、酒店房间、辅导、投资。人们在找工作或挑日子

    时,也会遇到选择过多的问题。你们如何找到彼此?这是信息时

    代的定义问题,而机器学习就是问题解决方案的主要部分。

    当公司不断发展壮大后,它会经历三个阶段:

    第一阶段的所有事都由人工完成——夫妻店的店主亲自了解

    其顾客,他们依照顾客类型订购、展示、推荐产品。这很不错,但规模不大。

    第二阶段是最辛苦的时期,公司变得越来越大,需要用到计

    算机。公司招来程序员、顾问,买来数据库管理器,程序员编写

    了成百万行的代码来使公司所有能自动化的功能自动化。更多的

    人享受到服务,但也有麻烦:决定是在粗略的人口统计类别的基

    础上做出来的,计算机程序也过于死板,无法与人类无限的才能

    相匹配。

    经过一段时间进入第三阶段,没有足够的程序员和顾问满足

    公司的需要,因此公司不可避免地向机器学习寻求帮助。亚马逊

    无法通过计算机程序将所有用户的喜好熟练地进行编码,脸书也

    不知道如何编写这样的程序,能选择最好的更新内容展示给每位

    用户。沃尔玛每天销售百万件商品,还要做数十亿个选择。如果沃尔玛的程序员努力编写出能够做所有选择的程序,这些选择就

    不用人来做了。相反,这些公司所做的工作是,它们在收集到如

    山的数据后,让学习算法尽情学习,然后预测顾客想要什么产

    品。

    学习算法就是“媒人”:它们让生产商和顾客找到对方,克服

    信息过载。如果这些算法足够智能,你就能取得两全其美的结

    果:从宏观来讲,选择广、成本低;从微观来讲,能够了解顾客

    的个性化需求。学习算法并不是完美的,决定的最后一步通常还

    得由人来做,但学习算法很智能,为人们减少了需要做的选择。

    回顾过去,我们看到,从计算机到互联网再到机器学习的进

    步是必然的:计算机使互联网成为可能,这个过程产生大量数据

    以及无限选择这个问题。单单互联网还不足以把“一个尺寸满足所

    有”的需求转向追求无限多样化的长尾效应。网飞公司的库存里可

    能有10万种不同名字的DVD(数字多功能光盘),但如果顾客不

    懂得如何找到自己喜欢的,他们就会默认选择最流行的 DVD。只

    有网飞公司有了学习算法之后,才能帮助它了解顾客的喜好,并

    推荐

    DVD,长尾效应也才得以真正实现。

    一旦必然的事情发生,机器学习成为媒介,那么其力量也开

    始慢慢积聚。谷歌的算法很大程度上决定你会找到什么信息,亚

    马逊决定你会买到什么产品,全球最大的婚恋网站默契网

    (Match.com)决定你的约会对象是谁。最好的选择权仍在你手里

    ——从算法给你展示的所有选项中挑选,但 99.9%的选择由算法做

    出。当下,一家公司的成败取决于学习算法对其产品的喜爱程

    度,而整个经济体的成功——是否每个人都能得到自己需要的物

    美价廉的产品,则取决于学习算法的好用程度。 公司确保学习算法喜爱其产品的最佳方法就是,让公司自己

    运行算法。谁有最佳算法、数据最多,谁就能赢。新型网络效应

    占据上风:谁有最多的用户,谁就能积累最多的数据,谁有最多

    的数据,谁就能学到最好的模型,谁学到最好的模型,谁就能吸

    引最多的用户,这是一种良性循环(如果你在竞争,就会变成恶

    性循环)。把搜索引擎从谷歌转换到必应,可能会比把应用系统从

    Windows切换到Mac要简单,但在实际操作中,你不会这么做,因为谷歌拥有领先优势及更大的市场份额,比必应更懂得你想要

    什么,虽然必应的技术也不错。可惜的是,必应刚进入搜索行

    业,没有什么数据资源,而谷歌却拥有十余年的机器学习经验。

    你可能会认为,过一段时间,更多的数据结果意味着更多的

    重复,但数据的饱和点还未出现,长尾效应持续起作用。如果你

    看亚马逊或网飞公司为你提供的推荐产品,很明显,这些推荐项

    仍很粗略,而谷歌的搜索结果也有很大的优化空间。每个产品的

    特性、网页的每个角落都有很大的潜力,能通过机器学习得到改

    善。网页底部的链接应该是红色的还是蓝色的?两个颜色都试

    试,看看哪个颜色的点击率会更高。还有,最好让机器学习持续

    运行,不断调整网页的所有方面。

    所有拥有众多选择和大量数据的市场都会发生这样的动态循

    环。比赛正在进行,谁学得最快,谁就赢了。随着越来越好

    地了解用户需求,这个比赛不会停止:企业可以将机器学习

    应用到企业运作的每个方面,只要有足够的数据,只要数据

    能够从计算机、通信设备以及更廉价、更普适的传感器源源

    不断地输出。“数据是新型石油”是目前的流行说法,既然是

    石油,提炼石油就是一笔大生意。和其他公司一样,IBM已

    制定经济增长战略,为企业提供分析服务。业界将数据看作

    战略资产:我有什么数据,而竞争对手却没有?我要怎么利

    用这些数据?竞争对手有什么数据,而我却没有? 同样的道理,没有数据库的银行无法和有数据库的银行竞

    争,没有机器学习的企业也无法跟上使用机器学习的企业。虽然

    第一家公司的专家写了上千条规则,预测用户的喜好,但是第二

    家公司的算法却能学习数十亿条规则,一整套规则都可用于每位

    用户。这就相当于长矛对机关枪。机器学习是很棒的新技术,但

    这并不是商业界拥护它的原因——人们之所以拥护它,是因为别

    无选择。 给科学方法增压

    机器学习是“打了类固醇”的科学方法,也遵循同样的过程:

    产生假设、验证、放弃或完善。科学家可能会花费毕生精力来提

    出或验证几百个假设,而机器学习系统却能在一秒钟内做完这些

    事。机器学习使科学的发现过程自动化。因此,并不奇怪,这既

    是商业领域的革命,也是科学领域的革命。

    为了取得进步,科学的每个领域都需要足够的数据,以与其研究

    现象的复杂性相对应。

    这是物理成为第一个腾飞学科的原因:第谷·布拉赫对星球位置的

    记录,以及伽利略对钟摆摆动、斜面的观察,已经足以推导出牛

    顿定律。这也是为什么虽然分子生物学这个学科比神经科学年

    轻,但是已超越神经科学:DNA(脱氧核糖核酸)微阵列以及高

    通量测序技术提供了大量的数据,而神经科学家对此只能可望而

    不可即。这也是为什么社会科学研究是一场艰苦卓绝的斗争:你

    拥有的只是100人的样本和每个人的十几个测量值,你能模拟的

    也只是某个规模很有限的现象,甚至这个现象可能不是孤立存在

    的,还受到其他现象的影响,这就意味你仍然没有彻底了解它。

    有个好消息,那就是之前缺乏数据的学科现在拥有很多数

    据。用不着让50名睡眼惺忪的本科生到实验室完成任务并付给他

    们报酬,心理学家通过在亚马逊“土耳其机器人” [3] 上发布实验任

    务,就可以找到满足他们数量要求的实验对象(这个网站对更多

    样化的样本也有帮助)。虽然回想起来越来越困难,但也只是 10

    年前,研究社交网络的社会学家哀叹说,他们无法得到成员超过

    几百人的社交网络。现在有了脸书,有超过 10亿用户。大部分用

    户会发布有关他们生活的很多细节,就像地球社会生活的实时直

    播。在神经科学领域,神经连接组学和功能性磁共振成像让人们对大脑有了十分详细的了解。在分子生物学领域,基因和蛋白质

    的数据库数量以指数级速度增长。甚至更为“年长”的学科,如物

    理学和解剖学也在不断进步,因为粒子加速器和数字巡天领域的

    数据在源源不断输出。

    如果你不将大数据变成知识,它将毫无用处,可是世界上没

    有那么多科学家来完成这件事。埃德温·哈勃通过钻研照相底片发

    现新的星系,但史隆数字巡天计划中,多达 5亿的天体肯定不是

    这样被辨认出来的。这就像在沙滩上用手来数沙粒的数目。你可

    以记录规则,把星系从星星及干扰物(如鸟、飞机、超人)区分

    开来,但得出的星系并不是那么准确。相比之下,天体图像目录

    编辑和分析工具(SKICAT)项目使用了学习算法。底片包括标记

    了正确类别的天体,从这些底片出发,学习算法可以明白每个分

    类的特点,并将其应用到没有标记的底片当中。甚至更理想的

    是,学习算法能够将那些对人类来说难以标记的天体进行分类,这些天体正是该项调查计划的主要内容。

    有了大数据和机器学习,你就能弄明白比之前复杂很多的现

    象。在多数领域,科学家一般只使用种类很有限的模型,例如线

    性回归模型,在这个模型当中,你用来适应数据的曲线总是一条

    直线。遗憾的是,世界上的大多数现象都是非线性的(或者说这

    也是一件幸事,如果是线性的,生活会变得非常乏味。实际上,那样就不会存在生命了)。机器学习打开了广阔、全新的非线性模

    型世界。这就好比在只有几缕月光照射的房间,打开了明亮的

    灯。

    在生物学领域,学习算法的研究成果包括:DNA分子中基因

    的位置;在蛋白质合成前,多余的核糖核酸在哪里进行绞接;蛋

    白质如何折叠成各自的特有形状;不同条件如何对基因的表达造

    成影响。用不着在实验室对新药进行测试,机器学习就可以预测这些药物是否有效,只有最有效的药品才会受到测试。学习算法

    还会剔除那些可能产生严重副作用(甚至导致癌症)的药物,备

    选药物无须在经过人体试验被证明无效后才被禁止使用,从而避

    免了代价昂贵的失败。

    然而,最大的挑战就是将所有这些数据组合成一个整体。导

    致你患心脏病的因素有哪些?这些因素如何相互影响?牛顿需要

    的只是三个运动定律和一个万有引力定律,但一个细胞、一个有

    机体、一个社会的完整模型却无法由一个人来发现。虽然随着知

    识的增长,科学家的分工变得越来越细,但是没有人能够将所有

    知识整合到一起,因为知识太多了。虽然科学家们会合作,但语

    言是传播速度非常缓慢的介质。虽然科学家们想努力追上别人的

    研究,但出版物的数量如此之多,他们的距离被拉得越来越远。

    通常是,重做一项实验比找到该实验的报告还要容易。机器学习

    在这时就会起作用,它能根据相关信息搜索文献,将某领域的行

    话翻译到另一个领域,并建立联系,而科学家们在过去都没有意

    识到。渐渐地,机器学习成为一个巨大的中心,通过这个中心,某领域里发明的建模技术将会被引入其他领域。

    如果计算机没有被发明出来,20世纪下半叶的科学将停滞不

    前。这可能不会很快在科学家当中表现出来,因为他们专注于所

    有仍可努力实现、有限的进步,但进步的空间真的太小了。同

    样,如果没有机器学习,许多科学在未来 10年将会面临收益递

    减。

    为了预见科学的未来,看看曼彻斯特大学生物技术研究院的

    实验室,在那里,一个名叫亚当的机器人正在努力工作,目的是

    找到哪些基因在酵母中对哪些酶进行编码。亚当有一个酵母新陈

    代谢的模型,还掌握了基本的基因及蛋白质知识。它提出假设,设计实验验证假设,进行实地实验,分析结果,提出新的假设,直到它满意为止。当下,人类科学家仍然在独立检查亚当的结

    果,然后才会相信这些结果,但在未来,他们就会交给机器人科

    学家来验证彼此的假设。

    10亿个比尔·克林顿

    在2012年的美国总统选举中,机器学习决定了谁能当上总

    统。通常决定总统选举的因素包括经济、候选人的亲民度等,但

    这些因素没有起到作用,而选举的结果主要受到几个“摇摆州”的

    影响。米特·罗姆尼的竞选采用的是传统的投票策略,将选民分成

    几大类,然后选择是否把每个类别作为目标。尼尔·纽豪斯(罗姆

    尼的民意调查专家)说道:“如果我们能在俄亥俄州赢得无党派人

    士,那么这场竞赛我们就赢了。”虽然罗姆尼获得了7%无党派人

    士的支持,但他仍失去了这个州,在竞选中失利。

    相比之下,奥巴马总统雇用了拉伊德·贾尼(机器学习专家,他是奥巴马竞选中的首席科学家)。贾尼研究的是如何整合最伟大

    的分析运算,并将其应用到政治史中。他们将所有选民的信息整

    合成单个数据库,然后将该数据库和他们能在社交网络、市场营

    销等领域找到的资源结合起来。之后着手对每个选民做四种预

    测:(1)支持奥巴马的可能性有多大;

    (2)会不会参加民意调查;(3)会不会回应竞选宣传并照做;

    (4)对特定问题进行对话之后,他们会不会改变选举决定。基于

    这些选民的例子,奥巴马团队每个晚上进行 66 000场选举模拟,并用这些结果指导奥巴马竞选的志愿者大军:该给谁打电话,该

    拜访谁,该说什么。

    在政界、商界以及战争中,最糟糕的事情莫过于,你不明白

    对手的行动,而知道该怎么做时,为时已晚。这就是发生在罗姆

    尼竞选中的事情,他们能看到对手的团队在特定镇的特定电台花钱做宣传,却不知道这是为什么,他们能预测的实在太少。最

    后,奥巴马除了北卡罗来纳州以外,赢得了每个州,而且与最可

    靠的民意调查专家的预测相比,他赢得了更多。

    反过来,最可靠的民意调查专家(例如内特·希尔)使用的是最复

    杂的预测技术,预测结果却没有奥巴马竞选团队的结果准确,因

    为他们的资源比较少。但他们比那些所谓的权威人士要准确很

    多,因为那些人的预测只是基于他们自己的专业知识。

    也许你会认为,2012年的美国总统竞选只是机缘巧合:大多

    数选举结果并不那么接近,机器学习无法成为决定因素。但未来

    机器学习会让更多的选举结果更接近。在政界,正如在所有领域

    那样,学习就像一场掰手腕比赛。在卡尔·罗夫(前直销商和数据

    挖掘工程师)的年代,共和党是领先的。到了 2012年,共和党开

    始掉队,但现在他们又追上来了。我们不知道下一轮选举谁会领

    先,但我们知道两个党派为了赢得选举都很努力。这也就意味

    着,应该更好地了解选民,根据候选人的情况进行宣传,甚至根

    据实际情况选择候选人。在选举期间以及每轮选举之间,这适用

    于整个党纲:在硬数据的基础上,如果详细的选民模式表明该党

    派现在的纲领是失败的,那么该党派就应改变它。因此,把主要

    选举活动放到一边,民意调查中候选人的差距会变得越来越小,而且很快会消失。其他条件不变,拥有更好选民模式的候选人会

    赢得选举,而选民也会因此得到更好的服务。

    政治家最伟大的才能之一,就是能够了解其选民个人或者选

    民团体,然后直接与他们对话,比尔·克林顿就是其中的一个典

    范。机器学习的作用就是,让每位选民都觉得克林顿对待他们亲

    力亲为、非常用心。尽管他们心目中的这些小小克林顿与真的克

    林顿相差太远了,但优势在于“小克林顿”的数量众多,哪怕比

    尔·克林顿根本无法了解美国的每位选民是怎么想的(虽然他确实

    想知道)。学习算法是最强大的政治家推销商。 当然,就像企业一样,政治家能把机器学习掌握的信息用

    好,也可能会用得很糟糕。例如,对不同的选民,他们可能会给

    出不一致的承诺,但选民、媒体、监督组织也会自己进行数据挖

    掘,并揭露做得太过分的政治家。竞选活动不仅仅是候选人之间

    的较量,还涉及民主进程中的所有参与者。

    更大范围的结果就是,民主会更好地得到实现,因为选民与

    政治家之间交流的范围会飞速扩大。在当今这个高速互联网时

    代,民意代表从你身上获取的信息数量仍像 19世纪时一样有限:

    每两年会有100比特左右的信息,数量正好对应一张选票。这些

    信息会由民意信息来补充,或许偶尔还会有电子邮件和市民大会

    的信息,但还是少得可怜。大数据和机器学习正改变这种等式关

    系。在未来,只要选民模式准确,当选官员就可以每天询问选民

    上千次想要什么,然后根据询问结果来办事,不用在现实中纠缠

    选民。

    学习算法与国家安全

    在网络空间之外,学习算法是保护国家的壁垒。每天,国外

    袭击者都会企图闯进五角大楼、国防承包商以及其他公司和政府

    机构的计算机。他们的计谋不断变化,能抵抗昨天袭击的方法,今天就已经不管用了。编写代码来侦查并阻止每场袭击,可能会

    和马其诺防线一样有效,五角大楼的网络司令部十分了解这一

    点。但如果是恐怖分子的第一次袭击,而且也没有之前的例子供

    机器学习来参考,那么机器学习就会遇到问题。学习算法会构建

    正常行为的模型(这样的模型数量很多),标出异常行为,然后召

    集来“骑兵”(系统管理员)。如果网络战争发生,人类就是总指

    挥,算法就是步兵。人类速度太慢、数量太少,很快就会被机器人大军歼灭。我们需要自己的机器人军队,而机器学习就像机器

    人中的西点军校。

    网络战争是不对称战争的一个例子,一方的传统军事实力比

    不上另一方,但仍然可以给对方造成严重伤害。少数恐怖分子只

    用美工刀就可以撞到双子塔,并让几千名无辜者遇难。当今美国

    安全最大的威胁就是不对称战争,而且抵抗所有威胁的有效武器

    就是信息。如果敌人躲不了,那么他也活不了。好消息就是我们

    有大量信息,但也有坏消息。

    美国国家安全局已经对数据产生无限大的胃口,也因此声名

    狼藉。据估计,每天美国国家安全局窃听着全球 10亿多个通话,还有其他通信。但是,抛开隐私问题,它也没有让上百万员工来

    窃听这些通话、偷看邮件,甚至也不会记录谁和谁通话。绝大多

    数通话是没有嫌疑的,而专门编写程序来找出有嫌疑的通话又很

    困难。过去,美国国家安全局利用关键词配对方法,但要应付这

    个方法也很容易(例如,把爆炸袭击称作“结婚”,把炸弹称作“结

    婚蛋糕”)。21世纪,这些事就可以交给机器学习。保密是安全局

    的标志,但安全局局长已经向美国国会证明,通话记录挖掘已经

    阻止了几十起恐怖威胁。

    恐怖分子可隐藏在足球比赛的人群中,但学习算法能辨认他

    们的相貌。恐怖分子可以在国外制造爆炸事件,但学习算法能找

    出他们。学习算法还可以做更加精细的事情:将机器人与事件连

    接起来,这些事件单个看起来并无危害,但集中起来可能就预示

    着不祥。这种方法本可以阻止“9·11”事件的发生。有一个进一步的

    转折:一旦确定的程序部署下来,坏人可能会改变其活动,以扰

    乱该程序。这与自然世界不同,自然世界总是以同样的方式运

    转。要解决这个问题,就要将机器学习与博弈论相结合,这是我

    已经在做的工作:别只想着打击对手当前想做的事,要学会巧妙地回避对手对你的学习算法的损害。正如博弈论那样,把各种措

    施的成本和利益考虑在内,这也有助于找到隐私与安全之间的平

    衡点。

    不列颠之战期间,英国空军阻止了纳粹德国空军的进攻,尽管后

    者人数比前者多很多。德国飞行员不明白,为什么无论走到哪

    里,他们总会碰上英国空军。英国有一个秘密武器:雷达,可以

    在德国飞机越境进入英国领空时,就探测到它们。机器学习就像

    装了雷达,能够预知未来。别只是回击对手的行动,要预测他们

    的行动,并先发制人。

    一个更确切的例子就是人们熟知的“预知执法”。通过预测犯

    罪倾向,战略性地将巡逻队集中在最可能需要的地方,同时采取

    其他预防措施,这样一座城市的警力就能有效地完成更大范围的

    工作。在许多方面,执法过程就像不对称战争,会用到许多相似

    的学习算法,无论是在侦查诈骗、揭露犯罪网络,还是普通传统

    的打击执法中。

    机器学习在战争中也将扮演越来越重要的角色。学习算法能

    有助于驱散战争迷雾,筛选侦察图像,处理后续报告,并整合信

    息,为指挥官提供战争形势分析。学习算法可以武装军用机器人

    的大脑,帮助其保持方位,适应地形,把敌机和民用机区别开

    来,以及进行制导。

    美国国防部高级研究计划局(DARPA)的领头狗(AlphaDog)能

    为士兵搬运设备。遥控飞机在学习算法的作用下可自主飞行。虽

    然它们仍受到人类飞行员的部分控制,但未来的趋势是一个飞行

    员监控越来越多的遥控飞机群。在未来的军队里,学习算法的数

    量会大大超过士兵的人数,这将减少许多士兵的伤亡。 我们将走向何方

    科技潮流奔涌而来并迅猛向前。机器学习不同寻常的一点就

    是,在经历所有这些变革以及繁荣和破产之后,它开始逐渐强

    大。它遇到的第一个大的打击是在金融领域,预测股票的起伏波

    动,起于20世纪 80年代。接下来的一波是挖掘企业数据库,在

    20世纪90年代中开始发展壮大,尤其是在直接营销、客户关系管

    理、资信评分以及诈骗侦查等领域。接着是网络和电子商务,在

    这些领域中,自动个性化很快流行起来。当互联网泡沫暂时削弱

    这种趋势时,将机器学习应用到网页搜索和广告投放的做法开始

    腾飞起来。不管怎样,“9·11”恐怖袭击后机器学习被应用到打击恐

    怖主义的战争中。网络2.0带来一连串的新应用,包括挖掘社交网

    络、搜索哪些博客谈到你的产品。同时,各个领域的科学家也逐

    渐转向大规模建模,由分子生物学家和天文学家打头阵。人们勉

    强留意到了房地产泡沫,而其主要影响就是使人才从华尔街转移

    到硅谷,并受到欢迎。2011年,“大数据”的概念流行起来,机器

    学习被明确归入全球经济未来的中心。当今,似乎没有哪个人类

    钻研的领域不受到机器学习的影响,甚至包括看起来没有多大关

    系的领域(如音乐、体育、品酒)。

    尽管机器学习发展很明显,但这也仅仅是未来的预告。虽然

    它有用,但实际上当今在工业上起作用的学习算法的生成还是受

    到了很大限制。如果现在实验室的算法能在各领域的前线使用,比尔·盖茨说机器学习的突破产生的价值将相当于 10家微软,其实

    这个说法有点保守了。如果这些观点让研究人员真正觉得眼前一

    片光明,而且收到效果,那么机器学习带来的就不仅仅是新的文

    明时代,还是地球生命进化的新阶段。 怎样才能实现这个目标?学习算法如何运行?现在它们不能

    做什么?它们的下一代会是怎样的?机器学习革命将以什么方式

    呈现?你得抓住哪些机遇,提防哪些危险?这些就是这本书要讲

    的内容。

    [3] 亚马逊“土耳其机器人”(Amazon Mechanical Turk)是一个Web服务应用程序

    接口,开发商通过它可以将人的智能整合到远程过程调用。——编者注

    第

    二

    章

    终

    极

    算

    法

    机器学习的应用非常广泛,更为惊人的是,相同算法可完成

    不同的事情。在机器学习领域之外,如果你要解决两个不同的问

    题,就得编写两个不同的程序。这些程序可能用到相同的基础架构,如相同的编程语言或数据库系统。但是,如果你想处理信用

    卡申请,诸如下棋的程序则毫无用处。在机器学习领域,如果提

    供适当的数据来让机器学习,那么相同的算法既可以处理信用卡

    申请,也可以下棋。实际上,大量的机器学习应用仅仅由几个算

    法来负责,在接下来的几个章节中我们会谈到这些算法。

    例如,朴素贝叶斯算法就是一个可以用短方程来表达的学习

    算法。只要提供患者病历的数据库,包括病人的症状、检查结

    果,或者他们是否有什么特殊情况,朴素贝叶斯算法就可在一秒

    之内做出诊断,而且往往比那些花几年在医学院学习的医生还要

    强,甚至它还可打败花费数千小时构建的医学专家系统。该算法

    还可应用于学习垃圾邮件过滤器,乍一看,这和医疗诊断毫无关

    系。另外一个简单的学习算法就是最近邻算法,它的用途十分广

    泛,从笔迹识别到控制机器人手,以及推荐你可能喜欢的书籍或

    者电影。决策树学习算法也同样擅长决定你的信用卡申请是否应

    被通过、寻找DNA中的绞接点,以及下棋时指导下一步该怎么

    走。

    相同的学习算法不仅可以完成无穷无尽且不同的事情,而且

    和被它们替代的传统算法相比,它们要简单得多。多数学习算法

    可能只需数百行或者数千行代码。相比之下,传统程序则需几十

    万甚至上百万行代码,并且单个学习算法就可以导出无数个不同

    的程序。

    如果那么少的学习算法就可以做那么多事,那么有一个逻辑

    上的疑问:单个学习算法可以把所有事情都做完吗?换句话说,单个算法可以学习所有能从数据中学习的东西吗?这是一个非常

    艰巨的任务,因为这基本上包含成年人大脑里以及人类进步所创

    造的一切,还有所有科学知识的总和。实际上,对所有主要的学

    习算法——包括最近邻算法、决策树学习算法以及贝叶斯网络(朴素贝叶斯的概括)——来说,如果你为学习算法提供足够、适当的数据,该算法可以实现任一功能(对学习任何东西来说,都与数学相关)。需要注意的是,“足够数据”也有可能无限。学习

    无限数据需要做出假设,如我们会看到的那样,而且不同的学习

    算法会有不同的假设。

    如果不把这些假设嵌入算法中,而是将其连同数据一起,当

    作显示输入,并允许用户选择插入哪一个,甚至陈述新的假设,那么会怎样?有没有这种算法,可以接收任何数据及假设并输出

    隐藏其中的知识?我相信有。当然,我们得限制假设的可能性,否则如果把整个目标知识都以假设形式赋予算法,那就是在作

    弊。

    我们可以通过限制输入的规模、要求假设弱于当前学习算法

    等方法,来实现这个目的。

    那么疑问就会变成:这些假设要弱到何种程度,但仍能够从

    无限数据中获得所有相关知识?注意“相关”这个词:我们仅仅对

    存在于世界的知识感兴趣,对不存在的世界没有兴趣。因此发明

    一种通用的学习算法可归结为发现宇宙最深层的规律,所有现象

    都遵循该规律,然后找出计算的有效方法来将其与数据结合起

    来。要找到这个“计算的有效方法”,就不能将物理定律视为万物

    规律,如我们将看到的那样。然而,这并不意味着通用的学习算

    法要和专用算法一样高效。正如在计算机科学中常发生的那样,我们宁愿牺牲效率来换取通用性。这在学习既定目标知识所需数

    据的量上也适用:一般通用学习算法会比专用算法需要更多的数

    据

    (但如果我们有必要的数量,就没问题),而且数据越多,越有可

    能会这样。 那么,这就是本书的中心假设:

    所有知识,无论是过去的、现在的还是未来的,都有可能通

    过单个通用学习算法来从数据中获得。

    我将该学习算法称为“终极算法”。如果这种算法成为可能,它的发明将成为人类最伟大的科学成就之一。实际上,终极算法

    是我们最不愿意发明的东西,因为一旦对其放松,它会继续发明

    一切有可能发明的东西。我们要做的,就是为它提供足够、适当

    的数据,通过这些数据,它会发现相应的知识:给它视频流,它

    就会观看;给它图书馆,它就会阅读;给它物理实验结果,它就

    会发现物理定律;给它DNA晶体学数据,它就会发现 DNA的结

    构。

    这可能听起来有点八竿子打不着:一种算法怎么可能学习那

    么多不同的事情,而且是这么难的事情呢?但实际上,种种证据

    表明终极算法是存在的。下面我们来看看它们是什么样的。

    来自神经科学的论证

    2000年4月,麻省理工学院的神经系统科学家团队在《自

    然》杂志上发布了一项非同寻常的实验结果。他们对雪貂的大脑

    进行重新布线,改变了雪貂从眼睛到听觉皮层(大脑负责处理声

    音的部分)以及从耳朵到视觉皮层之间的连接。你可能觉得实验

    结果就是雪貂会严重致残,但并没有:听觉皮层学会看,视觉皮

    层学会听,而且雪貂没事。一般的哺乳动物,其视觉皮层都包含

    一张视网膜地图:皮层中,与视网膜附近区域相连的神经元彼此

    相互接近。相反,大脑被重新布线的雪貂在听觉皮层中形成了这

    张视网膜图。如果视觉信息重新导入躯体感觉皮层(负责感知触

    觉),躯体感觉皮层也会学会看。其他哺乳动物也有这样的能力。 对于天生看不见的人,视觉皮层可以负责大脑的其他功能。

    对于听不见的人,听觉皮层也可以这么做。盲人可以借助舌头来

    学会“看”,方法是将头戴式摄像机的视频图像发送至舌头上的一

    组电极上,高电压与高像素对应,低电压与低像素对应。本·安德

    伍德是盲人,小时候就自学像蝙蝠那样,用回声定位来导航。

    通过咂舌头、听回声,他能够到处走动且不会撞到障碍物,会踩滑板车,甚至还能打篮球。所有这些例子都证明,大脑自始

    至终只使用了一种相同的学习算法,那些负责不同知觉的区域,区别也仅仅在于与其相连、输入信息的器官(如眼睛、耳朵、鼻

    子)。反过来,关联区(大脑的各个皮层)通过与不同的感觉区

    (各个感觉器官)相连,来实现其机能,而执行区则通过连接关

    联区来实现其机能,然后输出反馈。

    通过在显微镜下观察皮层可以得出相同的结论。同样的布线模式

    不断重复,随处可见。

    皮质是一个6层的柱状物,反馈回路达到大脑一个叫丘脑的结

    构,以及短程序抑制连接和远程兴奋性连接反复出现的模式。虽

    然表现出一定数量的变异,但这看起来更像是来自同一算法(而

    不是不同算法)的不同参数或者设置。低级感官领域会有更为明

    显的差异,但正如重新布线实验表明的那样,这些都不具有决定

    性。小脑是比大脑更早进化的部分,负责简单的运动调节,有着

    非常明显且有规律的架构,由小很多的神经元构成,因此,看起

    来至少动作学习使用的是不同的算法。然而,如果一个人的小脑

    受到损伤,大脑皮层会接管它的机能。人的生物进化过程保留了

    小脑,但这并不意味着小脑能做大脑皮层不能做的事情,只是因

    为小脑更加高效。

    自始至终,大脑构造中发生的运算也同样相似。大脑中的所

    有信息都以同样方式(通过神经元的放电模式)来表示。学习机制也相同:记忆通过加强集群放电神经元之间的连接得以形成,涉及一个叫作长时程增强的生物化学过程。不仅人脑是这样,不

    同的动物,其大脑运行机制都很相似。我们的大脑异常大,但似

    乎与其他动物一样,其构建遵循同样的原则。

    证明大脑皮层统一性的另一个证据来自所谓的基因组贫乏。

    人类大脑中的连接数量是基因组中字母数量的 100万余倍,因此

    从物理角度,基因组不可能弄明白大脑构造的细节。

    然而,关于大脑是终极算法这个观点的最重要论据,就是大

    脑负责我们能感知以及想象的一切。如果某物存在,但大脑无法

    对其进行学习,那么我们就不知道它的存在。我们可能只是没看

    见它,或者认为它是随机出现的。不管怎样,如果我们将大脑放

    入计算机中运行,那个算法就能掌握我们能学会的一切。因此发

    明终极算法的一种途径(可以说是最流行的一种)就是对人脑进

    行逆向解析。杰夫·霍金斯(Jeff Hawkins)在他的著作《人工智能

    的未来》(On Intelligence )中对此进行了尝试。雷·库兹韦尔(Ray

    Kurzweil)把他的希望放在奇点上——人工智能的崛起远远超过人

    类的多样性。这样做的同时,他还在《如何创造思

    维》(How to Create a Mind )一书中对此进行了尝试。虽然如此,我们会看到,这仅仅是几个可能途径中的一个。这甚至不一定是

    最有可能的一个,因为大脑非常复杂,而我们还处于解密大脑的

    初级阶段。另一方面,如果我们找不到终极算法,奇点也不会很

    快发生。

    并不是所有的神经系统科学家都相信大脑皮层的统一性,在

    我们肯定这个观点之前,需要学习很多东西。关于大脑能掌握以

    及不能掌握的东西,这个问题也引起了业界激烈的讨论。如果有

    我们知道但大脑不能学习的东西,那么这个东西肯定已经通过进

    化被掌握了。 来自进化论的论证

    生物多样性源于单一机制:自然选择。值得注意的是,计算

    机科学家对该机制非常熟悉:我们通过反复研究尝试许多备选方

    法来解决问题,选择并改进最优方案,并尽可能多地尝试这些步

    骤。进化论是一种算法。套用查尔斯·巴贝奇(维多利亚时期的计

    算机先驱人物)的观点,上帝创造的不是物种,而是创造物种的

    算法。达尔文在《物种起源》的总结部分提到的“无限形体,美丽

    至极”掩饰了最美的统一性:所有这些形体都被编码在 DNA中,所有这些形体都通过改变和连接这些染色体来表现。只通过该算

    法的一个描述,谁会猜出它产生了你和我?如果进化论这个算法

    能学习我们,可以想象它还可以学习能学习到的一切,条件是我

    们将进化论这个算法运用到足够强的计算机上。的确,在机器学

    习领域,通过模仿自然选择来使程序进化是许多人正在努力做的

    事情。因此,进化论是另外一个有希望通往终极算法的途径。

    利用足够多的数据,一种简单的算法能掌握什么?关于这个

    问题,最经典的例子就是进化论。输入进化论这个算法的信息是

    所有存在过的、活着的生物的经历以及命运(对现在的算法来说

    是大数据)。此外,这个进化论算法已经在地球上最强大的计算机

    运行了300多万年——这台强大的计算机就是地球自己。运行这

    个算法的真正计算机应该比地球这台“计算机”运转得更快、数据

    密集性更低。哪一个模型更适合终极算法:进化还是大脑?这是

    和机器学习有关、自然与培育之间的辩论。正如我们的存在依靠

    的是自然与培育的共同力量,也许真正的终极算法包含这两个方

    面。 来自物理学的论证

    在1959年的一篇著名文章中,物理学家、诺贝尔物理学奖得

    主尤金·维格纳惊叹“数学在自然科学中不可思议的有效性”。由少

    量的观察推导出规律,是什么神奇的力量让这些规律可以运用到

    超出其预测范围的领域?这些规律都是基于数据得来的,而为什

    么这些规律比数据还要准确好几个数量级?最重要的是,为什么

    简洁、抽象的数学语言能够如此精确地解释我们无限复杂的世

    界?维格纳觉得这是一个很大的谜,觉得既幸运又无法理解。数

    学就是如此,而且终极算法就是其逻辑的延伸。

    如果这个世界仅仅是一个不断变大、喧哗嘈杂的困惑体,那

    么我们有理由怀疑通用学习算法的存在。但如果我们所经历的一

    切,仅仅是几个简单规律的产物,那么单个算法能推导出所有一

    切能推导的东西,就是可以理解的。终极算法要做的就是提供一

    条捷径,通过实际观察,用简短的算式推导(而不是长长的算

    式)来得出这些规律的结果。

    例如,我们虽然相信物理定律引起进化,但是不知道具体怎

    么进行。我们知道自己可以像达尔文那样,通过观察直接推导出

    自然选择规律。无数错误的推论就是由那些观察得出的,但多数

    人不会做出那些错误的推论,因为我们对世界有着广泛的认识,会对自己的推论形成良性影响,而且那些认识也与自然规律相

    符。

    物理规律之美多大程度渗透到更高的领域(如生物学、社会

    学),这一点有待观察。但对混沌的研究提供了许多诱人的例子,这些例子和拥有相似行为的不同系统相关,而普适性理论可以解

    释这些例子。曼德布洛特集合(Mandelbrot Set)就是很完美的例

    子,能解释一个很简单的重复程序如何产生无数种类的形式。如果世界上的山峰、河流、云朵以及树木都是这些重复程序的产物

    (分形几何学表明它们就是),也许那些程序只是单个程序的不同

    参数化,而该单个程序可以从那些程序推导中得出。

    在物理学中,适用于不同数量的方程,往往可以用来描述发

    生在不同领域的现象,例如量子力学、电磁学、流体动力学。波

    动方程、扩散方程、泊松方程表明:一旦我们在某个领域发现它

    们,也很快能在其他领域发现它们;一旦我们在某个领域懂得解

    开它们,也能在所有领域将它们解开。此外,所有这些方程都很

    简单,涉及几个和空间、时间有关的数量的相同导数。很容易想

    象,它们都是主方程的几个例子,而终极算法要做的,就是用不

    同的数据集来将它实例化。

    另外的证据来自最优化。最优化是数学的分支,关注的是为函数

    找到输入值,使其产生最大输出值。例如,找到购买及销售股票

    的排序,用来最大化你的全部回报,这就是一个最优化问题。在

    最优化中,简单的函数往往能引出惊人的复杂方案。最优化几乎

    在每个领域都扮演十分重要的角色,包括科学、技术、商业,还

    有机器学习。每个领域在约束条件下进行最优化,该限制条件由

    其他领域的最优化状态来决定。我们努力在经济的限制下将幸福

    感最大化,这也是公司在受到当前技术水平限制下的最佳方案,反过来成为我们在生物学及物理学限制下能找到的最佳方案。反

    过来,生物学是进化学在物理学和化学的约束下进行优化的结

    果,而物理定律本身又是最优化问题的解决方法。因此,可能所

    有事物的存在,都是一个中心优化问题进一步的解决方案,而终

    极算法随着那个中心问题的叙述而产生。

    不仅物理学家和数学家在寻找不同领域之间意想不到的联

    系,生物学家也在寻找。在 《论契合:知识的统合》(Consilience )一书中,著名生物学家爱

    德华·威尔逊慷慨激昂地阐释了知识(从科学到人文学)的统一

    性。终极算法就是该统一性的完美表达:如果所有知识共同遵循

    一个模式,那么终极算法就存在,反之则不存在。

    然而,物理学的简洁性独一无二。在物理学和工程学之外,数学的轨迹就更加混合。有时数学仅限于用起来有效,而有时它

    的模型又过于简单,无法使用。然而,过于简单的倾向源于人类

    思维的各种限制,而不是源于数学的种种限制。大脑的大多数硬

    件(或许该叫“湿件”)负责人体感知和活动,而为了做算术,我

    们就得借用因语言得到进化的那部分大脑。

    计算机就没有这样的限制,而且可以轻易地将大数据变成非常负

    责的模型。在数学的过度有效性与数据的过度有效性面前,你就

    会选择机器学习。生物学和社会学绝对不会像物理学一样简单,但我们发现其真理的方法可以做到那样简单。

    来自统计学的论证

    根据一个统计学流派的观点,所有形式的学习都是基于一个

    简单的公式——如我们所知,就是贝叶斯定理。贝叶斯定理会告

    诉你,每当你看到新的证据后,如何更新你的想法。一种简单的

    贝叶斯学习算法对世界进行一系列假设,由此开始进行学习。当

    它看到新的数据时,与该数据匹配的假设更有可能会成立(或者

    不可能成立)。在观察足够的数据后,某个假设会成立,或者几个

    假设同时成立。例如,我在寻找一个能够准确预测股票走势的程

    序,该程序预测某只股票会下跌,结果该股票却上涨了,那么该

    程序就会失去我的信任。我审核几个备选程序之后,只选择了几

    个可信赖的程序,它们概括了我对股票市场的新认识。 贝叶斯定理就是将数据变成知识的机器。据贝叶斯统计学派

    的观点,贝叶斯定理是将数据变成知识的唯一正确方法。如果该

    学派的观点正确,贝叶斯定理要么就是终极算法,要么就是推动

    终极算法发展的动力。关于贝叶斯定理使用的方法,其他统计学

    派持非常保守的观点,而且会更愿意用不同方法来对数据进行学

    习。在计算机发明出来之前,贝叶斯定理只能应用在非常简单的

    问题中,说它是通用的学习算法未免有点牵强附会。然而,在大

    数据和大计算的辅助下,贝叶斯定理在广阔的假设空间中找到了

    出路,而且已经扩展到每个人们能想到的领域中。如果说存在贝

    叶斯算法无法学习的东西,只是现在还没发现它们。

    来自计算机科学的论证

    我在大四时,用了一个夏天玩俄罗斯方块游戏,这是一个涉

    及方块叠加的电子游戏,游戏中由正方形组成的各种形状的图案

    往下掉,你要将这些图案堆起来,堆得越紧密越好。如果图案堆

    到屏幕顶部,那么游戏就结束了。当时我完全没有意识到,这就

    是我接触NP完全问题 [4] 的开始,这是理论计算机科学最重要的

    一个问题。后来我才知道,俄罗斯方块完全不是简单用来消遣的

    游戏,掌握这个游戏(彻底掌握它),就是你这辈子做得最有用的

    事情。如果你一步到位,解决了俄罗斯方块问题,你就解决了科

    学、技术、管理中数千个最难、最有意义的问题,因为本质上这

    些难题就是同一个问题。这是在所有科学领域中最让人惊讶的事

    实。

    弄明白蛋白质如何折叠成特定形状;通过 DNA来重新构建一

    系列物种的进化史;在命题逻辑中证明定理;利用交易成本来发

    现市场中的套利机会;从二维视图中推出三维形状;将数据压缩

    到磁盘上;在政治活动中组成稳定联盟;在剪切流中模拟湍流;按照给定回报率找出最安全的投资组合、到达几个城市的捷径、微芯片上元件的最佳布局方案、生态系统中传感器的最佳布局、自旋玻璃门最低的能量状态;安排好航班、课程、工厂工作;最

    优化资源分配、城市交通流、社会福利,以及提高你的俄罗斯方

    块分数(最重要的)——这些都是

    NP完全问题,意思是,如果你能有效解决其中的一个问题,就能

    有效解决所有NP类问题,包括相互间的问题。谁会猜到,这些表

    面上看起来迥然不同的问题,会是同一个问题?如果它们真的是

    同一个问题,就可以说一种算法能学会解决所有问题(或更准确

    地说,所有能有效解决的例子)。

    在计算机科学中,P和NP是两类最重要的问题(很遗憾,名

    字不是很有助于记忆)。如果我们能有效解决它,那么这个问题就

    属于P;如果我们能有效找到其解决方案,那么这个问题属于

    NP。著名的P=NP的问题就是,能有效找到的问题是否可以得到

    有效解决。因为NP 完全问题,回答这个问题需要的只是证明某个

    NP完全问题可被有效解决(或者无法被有效解决)。NP在计算机

    科学领域并不是最难的一类问题,但可以说,它是最难的“现实”

    类问题:如果在宇宙灭亡之前,你无法找到问题的解决方法,那

    你努力解决这个问题的意义在哪里?人类擅长给出NP难题的近似

    解,而相反,我们感兴趣的问题(如俄罗斯方块问题)往往涉及

    NP问题。人工智能的其中一个定义是,人工智能包括找到 NP完

    全问题的所有启发性解决方案。为了找到解决方案,我们常常把

    问题变成可满足性问题,也就是典型的 NP完全问题:给定的逻辑

    公式是否永远都是对的,或者它是不是自相矛盾?如果我们发明

    一种学习算法,能够学习解决可满足性问题,那么有充分理由认

    为,这个算法就是终极算法。抛开 NP完全问题,计算机的存在本

    身就明显预示着终极算法的存在。如果你穿越回到 20世纪早期,告诉人们很快会有一种机器发明出来,能够解决人

    类所有领域的难题——所有难题都通过同一台机器解决,那么没

    有人会相信你。人们会说,每台机器只能解决一个问题:缝纫机

    不会打字,打字机不会缝纫。1936年,艾伦·图灵想象出一个奇怪

    的装置,它有一条纸带和机器头,头可以在纸带上进行阅读和书

    写,就是现在人们知道的图灵机。每一个可以想得到的、可以用

    逻辑推理解决的难题,都可以通过图灵机解决。此外,一台所谓

    的万能图灵机可以通过阅读纸带上的具体要求来模仿所有东西,换句话说,我们能够对图灵机进行编程,用它来做所有事情。

    算法是归纳的过程,而学习的过程对图灵机来说,就是演绎

    的过程。图灵机能通过对算法输入、输出行为进行阅读来模仿其

    他算法。就像存在许多与图灵机对等的计算模型,可能也存在通

    用学习算法的许多不同的等价公式。然而,问题的关键是必须找

    到第一个这样的公式,就像图灵找到通用计算机的第一个公式那

    样。 机器学习算法与知识工程师

    当然,有很多人支持终极算法,也有很多人怀疑终极算法。

    当某方法可以简单解决复杂问题时,存在怀疑符合情理。对终极

    算法最坚定的反抗来自机器学习永恒的敌人:知识工程。根据知

    识工程支持者的观点,知识无法自动被学习,必须通过人类专家

    编入计算机,才能对它进行学习。的确,学习算法能从数据中提

    取一些东西,但你不能将这些东西和真知识混为一谈。对知识工

    程师来说,大数据不是新石油,而是骗人的新蛇油。

    在人工智能出现早期,机器学习似乎是通往类人智能计算机

    的途径。图灵和其他人认为,机器学习是唯一看似合理的途径。

    但后来知识工程师进行了回击,而且20世纪 70年代机器学习处

    于次要地位。在20世纪80年代的一段时间,似乎知识工程师要

    接管世界了,还有许多企业和国家对知识工程领域进行大量投

    资。但后来人们开始对该领域失望,而机器学习也开始崛起,一

    开始悄无声息,后来就突飞猛进。

    尽管机器学习成功了,知识工程师们还是觉得不信服。他们

    相信,机器学习的局限性很快会变得明显,钟摆会摆回来,局势

    会扭转。马文·明斯基是麻省理工学院的教授、人工智

    能的先驱人物,也是该阵营的重要成员。明斯基不仅怀疑机器学

    习能替代知识工程,他也怀疑人工智能的所有统一思想。明斯基

    在其《意识社会》(The Society of Mind )一书中提到了关于智能的

    理论,这个理论可以被不客气地归纳为“意识就是一个接一个该死

    的东西”。

    《意识社会》包含的就是一长串分散的观点,每个观点都毫不相

    关。这种实现人工智能的方法根本没什么用,它只是由计算机进

    行的收集活动。没有机器学习,需要建立智能代理的观点将会变得无限多。如果一个机器人掌握了人类所有的技能,但就是没有

    学习能力,那么人类不久就会把它扔在一边。

    明斯基是Cyc项目(Cyc project)的狂热支持者,这是人工智

    能历史上最臭名昭著的失败项目。Cyc项目的目标是通过将所有必

    要知识输入计算机中,来解决人工智能问题。20世纪

    80年代这个项目刚开始时,它的领导者道格·莱纳特(Doug

    Lenat)就信心满满地预测,10年之内该项目就会取得成功。30年

    后,Cyc项目不停扩大,但仍无法做常理性推理。具有讽刺意味的

    是,莱纳特终于支持通过挖掘网页来将 Cyc填满,这并非因为

    Cyc可以阅读,而是因为别无他法。

    即使奇迹发生,我们能够对所有必要的数据进行编程,麻烦

    也会不断出现。过去几年,几个研究组已经尝试构建完整的智能

    代理,方法就是将所有算法集中起来,用于想象、语音识别、语

    言理解、推理、计划、导航、操作等。没有统一的结构,这些尝

    试将碰到“复杂性”这个难以解决的难题:有太多的活动件、太多

    的交互、太多的漏洞,可怜的人类软件工程师也难以应付。知识

    工程师相信,人工智能的问题仅仅是工程学的问题,但是我们还

    没达到那个点——工程学能带领我们走完下面的路。1962年,肯

    尼迪发表登月演讲。那时登上月球是一个工程学问题,但 1662

    年,它就不是了,而当今它则更加靠近人工智能所在的领域。

    在工业领域中,除了在一些利基领域,没有任何迹象表明知

    识工程学可以永远和机器学习竞争。为什么要花费精力来让专家

    缓慢而痛苦地将知识编码成计算机能识别的形式,而你明明可以

    在一秒内将其从数据中提取出来?你会怎么对待那些专家不懂,你却可以从数据中发现的东西?而当数据不足时,知识工程学的

    成本倒是很少会超过其带来的益处。反过来,想象一下,如果农民要将每株玉米进行工程化,而不去播种并让它们生长,那么我

    们都得挨饿。

    另一个对机器学习持怀疑态度的人是语言学家诺姆·乔姆斯

    基。乔姆斯基认为,语言必须是与生俱来的,因为孩子听到的合

    乎语法的句子仅仅是一些例子,不足以学习语法。然而,这种说

    法仅仅将学习语言的任务交给了进化,它并没有反对终极算法,只是反对“终极算法是大脑”这个观点。此外,如果存在通用语法

    (乔姆斯基认为存在),阐发它就是阐发终极算法的步骤之一。这

    种情况不成立的唯一可能就是,语言和其他认知能力没有共同

    点,考虑到进化的近因,这令人难以置信。

    无论如何,如果我们将乔姆斯基“刺激贫乏”论形式化,我们

    会发现这个观点很明显是错的。1969年,霍宁证明,概率上下文

    无关语法(probabilistic context–free grammar)只能通过正面例子

    掌握,后面紧跟的是更有力的结果(上下文无关语法是语言学家

    研究的内容,而概率类型模拟每个规则被使用的概率)。另外,语

    言学习不会发生在一个真空当中,孩子需要从父母和周围环境获

    取各种语言学习线索。如果我们能从几年时间里学习的例子中学

    习语言,部分也只是因为语言结构与世界结构存在相似性。对这

    个共同结构,我们感兴趣,而且从霍宁和其他人那里知道,有这

    个共同结构就足够了。

    总体来讲,乔姆斯基批评所有统计学习。他把统计学习算法

    不能学习的东西列了一个单子,但这个单子已经过时 50年了。乔

    姆斯基似乎把机器学习等同于行为主义了,根据行为主义,动物

    的行为沦为反应与奖励之间的联合,但机器学习不是行为主义。

    现代学习算法能够掌握丰富的内在表象,而不仅仅是刺激物之间

    的两两关系。 最后,事实胜于雄辩。统计学语言算法起作用了,而手工设

    计的语言系统却没起作用。

    第一件令人大开眼界的事发生于20世纪70年代,当时五角大楼

    的研究机构DARPA组织了第一个大型语音识别项目。让所有人惊

    讶的是,一种简单的序列学习算法——乔姆斯基嘲笑的类型,轻

    易地打败了一个复杂的知识系统。现在像这样的学习算法几乎用

    于每一个语音识别器中,包括Siri(苹果公司产品上的一项智能语

    音控制功能)。弗雷德·贾里尼克(IBM语音研究组的领导)说过

    一句著名的俏皮话:“每开除一名语言学家,我的语音识别系统的

    错误率就降低一个百分点。”20世纪80年代,陷入知识工程学的

    泥潭里,计算机语言学差点走向尽头。自那以后,基于学习算法

    的浪潮已经席卷这个领域,在计算机语言学会议中,几乎每篇文

    章都会提到学习。统计分析软件以近乎人类水平的精确度来分析

    文章,而手编程序已经远远落在后面。机器翻译、拼写纠正、词

    性标注、词义消歧、问题回答、对话、概括——这些领域的所有

    最好的系统都利用了学习。没有学习,沃森不可能在《危险边

    缘》游戏中战胜人类。

    对此,乔姆斯基可能会回应,工程学的成功并不能证明其科

    学有效性。换句话说,如果你的楼房倒塌了,而且你的发电机不

    工作了,那么也许就是因为你的物理学观点有问题。乔姆斯基认

    为,语言学应该把重点放在他定义的“理想的”说话者和听话者

    上,这让他忽略了诸如类似的问题:语言学习过程涉及统计学。

    因此,很少有实验主义者拿他的理论当回事,这并不奇怪。

    另外一个可能会反对终极算法的观点来自心理学家杰瑞·福

    多,他认为心理是由一系列模块组成的,这些模块之间只有有限

    的联系。例如,当看电视时,你的“高级脑”知道,那只是光线在

    光滑表面的闪烁,但视觉系统仍然会看见三维形状。即使我们相

    信心理模块理论,这个理论也并没有暗指不同的模块会使用不同的学习算法。同种算法对诸如视觉及语言之类的信息都起作用,这个说法才足够有力。

    像明斯基、乔姆斯基和福多这样的批评家曾经占据上风,但

    万幸,他们的影响力已经逐渐减弱。即便如此,我们仍需将他们

    的批评铭记于心,这样才能到达终极算法这个终点,原因有两

    个:第一,知识工程师和机器学习算法一样,遇到许多相同的问

    题,虽然他们没有成功,但学到了许多宝贵的教训;第二,学习

    和知识以异常微妙的形式相互交织,而我们很快就会发现这一

    点。遗憾的是,这两个阵营各说各话。他们讨论不同的主题:机

    器学习讨论概率,而知识工程学讨论逻辑。本书后面会提到如何

    解决这个问题。

    天鹅咬了机器人

    “无论你的算法有多聪明,总有它无法掌握的东西。”除了人

    工智能和认知科学,反对机器学习的常见观点几乎都可以用这句

    话概况。纳西姆·塔勒布(Nassim Taleb)在《黑天鹅》(The Black

    Swan )一书中强调了这个观点。有些事真的无法预料。如果你只

    见过白天鹅,会觉得看到黑天鹅的概率是0。2008年的金融危机就

    是一只“黑天鹅”。

    有些事可预料,而有些事却不能预料,这个说法是正确的,而机器学习算法的首要任务就是区别可预测的事与不可预测的

    事。但终极算法的目标是要学习一切能认知的东西,这比塔勒布

    和其他人想象的要广阔得多。房地产泡沫还远远不是一只“黑天

    鹅”,相反,房地产泡沫是经过人们普遍预测的。大多数银行的模

    型没能预测它的到来,也只是因为那些模型的局限性,而不是机

    器学习的局限性。学习算法很擅长精确预测稀有、未曾发生的事

    件。甚至你也可以说,这是机器学习的主要任务。如果你没见过黑天鹅,那么它出现在你面前的概率是多少?它是已知物种的一

    部分,最后变成黑色的天鹅,这样的概率是多少?这仅仅是一些

    粗略的例子,我们会在本书看到更深刻的例子。

    另外一个反对机器学习的观点与以上观点相关,就是我们常

    听到的——“数据无法代替人类的直觉”。实际上,这句话可以反

    过来:人类直觉无法代替数据。直觉就是你在不知道事实的情况

    下依靠的东西,而因为你不常用它,所以直觉非常宝贵。但如果

    证据摆在你面前,为什么还要拒绝证据?统计分析在棒球界打败

    球探(正如迈克尔·刘易斯在《魔球:逆境中制胜的智慧》一书中

    明确记录的那样),在品酒时打败内行。统计分析能做很多事情,我们每天都能看到新的例子。因为大量数据的涌入,证据与直觉

    的界限正在迅速改变,而正

    如所有革命一样,要抛弃所有墨守成规的方法。如果我是 Y公司

    X领域的专家,我就不想被

    某人用数据推翻。行业里有句话:“多听听顾客的话,而不是

    HiPPO。”(HiPPO是“领最高薪水的人说的话”的简写。)如果想成

    为明天的权威人士,你要依靠数据,而不是与之斗争。

    好了,有人会说,机器学习能从数据中找到统计规律,但它

    绝不会发现更深刻的东西,如牛顿定律。可以说,它还没有找到

    那样深刻的定律,但我肯定它将来会找到。尽管有苹果落下的故

    事,但深刻的科学真理并不是那么容易就能获得。科学经历了三

    个时期:布拉赫时期、开普勒时期、牛顿时期。对于布拉赫时

    期,我们收集了很多数据,就像第谷·布拉赫日复一日、年复一年

    耐心记录行星的位置那样。对于开普勒时期,我们使经验规律符

    合数据,就像开普勒对行星运动所做的那样。对于牛顿时期,我

    们发现了更深刻的真理。大多数科学研究和布拉赫、开普勒所做

    的工作相似,这样的工作就是科学研究的内容,像牛顿偶然发现

    定律的例子则少见。当今,大数据所做的工作是布拉赫的数十亿倍,机器学习的工作内容是开普勒的数百万倍。如果(但愿如

    此)有更多像牛顿偶然发现定律这样的时刻,这样的时刻也可能

    发生在未来的学习算法中,或者发生在未来手足无措的科学家身

    上,或者至少是发生在两种可能都存在的情况下(当然,诺贝尔

    奖会颁发给科学家,不管他们是持重要的观点,还是只按了一下

    按钮。学习算法就没有那样的志向,要拿诺贝尔奖)。本书将会提

    到那些算法是怎样的,并推测它们会发现什么,例如,治愈癌症

    的方法。 终极算法是狐狸,还是刺猬

    我们有必要考虑藏得更深、反对终极算法的观点,这个观点

    可能是所有反对观点中最严肃的一个。这个观点不是来自知识工

    程师或者不满意的专家,而是来自机器学习实践人员。

    假设我是持反对观的机器学习实践者,可能会说:“终极算法和我

    日常生活看到的不一样。

    我尝试用许多学习算法的数百种变形来解决所有给定的问题,而

    且对各类不同问题都会有更好的算法,那么单个算法(我们说的

    终极算法)怎么可能代替所有这些算法?”

    这个问题的答案是:的确如此。不用尝试多种算法的数百种

    变形,而只用尝试单个算法的数百种变形,这不是更轻松吗?只

    要我们弄明白,每个算法中重要的与不重要的东西,重要部分的

    共同点,以及这些部分如何进行互补,那么我们真的可以从这些

    多种算法中合成一个终极算法。这就是我们在本书中要做的事

    情,或者说尽可能要做到的事情。亲爱的读者,也许你在阅读本

    书时,会有自己的一些观点。

    终极算法会复杂到什么程度?它包含几千行代码?还是几百

    万行?我们现在还不知道,但机器学习有一段可喜的历史:简单

    的算法意外地将精心设计的算法打败了。在《人工科

    学》(The Sciences of the Artificia )一书的著名章节中,人工智能先

    驱人物、诺贝尔奖得主赫伯特·西蒙(Herbert Simon)让我们想象

    蚂蚁费力地穿过沙滩回家。蚂蚁的路线非常复杂,这不是因为蚂

    蚁本身复杂,而是因为沙滩这个环境对蚂蚁来说意味着要爬很多

    山丘,绕很多卵石。如果我们通过对每条可能的路线进行编程,模仿蚂蚁,那么我们注定会失败。同样,在机器学习中,复杂性

    存在于数据中。终极算法需要做的就是消化复杂性,因此,如果终极算法变得非常简单,那么我们也不用感到惊讶。虽然人类的

    手很简单(四个手指,一个大拇指),但是它却可以制作并使用无

    数种工具。终极算法与算法的关系,就如同手指与钢笔、剑、螺

    丝刀、叉子的关系。

    正如以赛亚·伯林明确提出的那样,有些思想家就是狐狸——

    他们知道许多微小的事情;而有些思想家则是刺猬——他们知道

    一件大事。学习算法也是同样的情况。我希望终极算法是一只刺

    猬,但即使它是只狐狸,我们也没法很快抓住它。当今学习算法

    最大的问题,不是它们数量太多,而是尽管它们有用,却不能完

    成我们让它们做的所有事情。我们利用机器学习来发现深刻的真

    理之前,得先找到关于机器学习的深刻真理。

    我们正面临什么危机

    假设你被诊断患有癌症,而且传统疗法(手术、化疗、放

    疗)都失败了,那么接下来发生的事情就会决定你是活下去,还

    是走到生命尽头。第一步就是要对肿瘤进行基因排序。诸如在剑

    桥、马萨诸塞州的基础医学公司会为你做这些工作:把肿瘤样本

    邮寄给他们,然后他们会发给你一个列表,列表是已知的、和癌

    症相关的基因变异。这个步骤十分有必要,因为每种癌症都不一

    样,单种药不可能治疗所有癌症。当癌症扩散到全身时会变异,通过自然选择,最能抵抗你所服用药物的变异细胞最有可能继续

    会生长。对你有用的药物可能只对 5% 的病人有用,或者你需要结

    合其他药物一起服用,这些药可能你之前从未服用过。也有可能

    要设计一种新药,专门治疗你的癌症,或者需要一系列的药来避

    开癌症的适应性。这些药物可能会有副作用,而且对你来说会致

    命,但对其他很多人来说可能没有问题。即使了解你的病历和癌

    症基因,也没有哪个医生可以记录你所有的病情,以便预测最好的疗法。对机器来说,这是一个完美的任务,但当今的学习算法

    还无法完成这个任务。终极算法就是一个完整包:将终极算法应

    用于大量的患者及药物数据中,同时参考从生物医学文献中挖掘

    的知识,这就是我们将来治疗癌症的方法。

    许多领域迫切需要通用学习算法,包括与生死有关的领域以

    及普通领域等。你可以想象理想的推荐系统是什么样的,它能推

    荐书籍、电影以及小玩意儿,它们正是你有时间慢慢细看时会挑

    选的东西。亚马逊的算法与这个系统则大相径庭,部分是因为亚

    马逊的算法没有足够的数据——它知道的主要信息仅仅是你之前

    从亚马逊购买的东西——但如果你气疯了,把自出生以来能想到

    的东西都一股脑地输给它,那么它就不知道该拿这些东西怎么办

    了。你如何将生活的万花筒、做过的各类选择转化成连贯的画

    面,用来告诉你:你是谁,你想要什么?这是当今学习算法无法

    理解的。但有了足够的数据,终极算法将能够大概了解你以及你

    最好的朋友。

    未来某一天,每个房间都会有一个机器人,做饭、铺床,甚

    至在父母去上班时照看孩子。这一天要多久才来,取决于寻找终

    极算法的过程有多艰难。如果我们能做的,只是将许多不同的学

    习算法结合起来,每种算法只能解决人工智能的一小部分问题,那么很快我们就会撞到复杂性这堵墙。这种零碎的方法在《危险

    边缘》比赛中奏效了,但很少有人相信,未来的家用机器人就是

    沃森的子孙。这并不是说终极算法会单枪匹马破解人工智能的难

    题,还有许多伟大的工程要完成,沃森就是一个很好的开始。但

    “二八原则”也适用:终极算法会提供 80%的方案,做20%的工作

    量,所以这是开始的最佳时机。终极算法对技术的影不仅限于人

    工智能。通用的学习算法是打击复杂性怪兽的有力武器。当今人

    类建立起来的很复杂的系统将来会变得简单。计算机会在我们更

    少的辅助下做更多的事情。它们不会不断重复同一些错误,而会像人一样,从实践中学习经验。有时,就像传说中的管家,我们

    还没说想要什么,计算机就已经先猜出来了。如果计算机能让我

    们变聪明,那么运行终极算法的计算机会让我们感觉自己就是天

    才。技术进步的步伐会明显加快,不仅仅在计算机科学,在许多

    不同的领域也会这样。这就反过来推动经济发展,降低贫困率。

    终极算法会辅助汇总和传播知识,这样一个机构的情报会比其各

    个分机构的情报总数还要多,而不会更少。日常工作将自动化完

    成,并由更有意思的工作来代替。每项工作都会比当今完成得更

    好,无论这个工作是由更熟练的人、计算机,或者通过二者的结

    合来完成。股市崩盘的概率会越来越低,规模也会越来越小。传

    感器会在地球上形成密集的网格,人类掌握的模型会持续接收终

    极算法输出的信息,这样我们就不会盲目飞行了,地球的情况会

    变得越来越好。你的一个模型会代表你和世界进行谈判,和其他

    人及实体模型玩复杂的游戏。因为有了这些,我们会更长寿、更

    幸福,也更多产。

    因为反对观点的潜在影响太大,我们应该努力发明终极算

    法,哪怕成功的概率很低。即使这个过程会很久,但找到一种通

    用学习算法却有很多能即刻感受到的好处。其中一个就是我们能

    通过统一观点更好地了解机器学习。有太多的商业决策是在不了

    解统计学的情况下做出来的,而统计学对商业决策起着支撑作

    用。事情本该不是这样的。为了使用一项技术,不必掌握其内部

    工作原理,但我们得有关于它的一个好的概念模型。我们有必要

    知道如何找到收音机上的一个电台,或者懂得如何调音量。当

    下,那些不是机器学习专家的人,对学习算法会用来做什么,没

    有什么概念模型。我们使用谷歌、脸书时驱动的算法,或者最新

    的分析套件,有点像一辆带有有色窗户的黑色豪华轿车,在某个

    夜晚神秘地出现在我们的家门口:我们该上车吗?这辆车会带我

    们去哪里?现在是时候坐在司机的座位上了。明白不同的算法所做的假设会帮助我们选择合适的算法用于工作中,而不是从偶然

    出现的算法中随机挑一个用,然后忍受它好几年,最后痛苦地领

    悟从一开始我们就该知道的东西。通过了解学习算法优化的内

    容,我们可以肯定它们优化的是我们关注的东西,而不是装在盒

    子里的东西。也许最重要的是,一旦我们知道特殊的学习算法得

    出的结论,就会知道用这些信息来做什么—— 该相信什么,该如

    何回报发明者,以及下次该如何取得更好的结果。有了通用学习

    算法(我们在本书中将其作为概念模型),我们就能在没有认知负

    载的情况下,把所有这些事情做完。机器学习本质上是简单的,我们只需削掉数学及行话这些外皮,然后把最里面的“俄罗斯套

    娃”展示出来。

    这些好处都可应用于我们的私人生活和工作中。我们在现代

    世界留下自己的印记,数据记录了我们的每一个印记,但我们应

    该如何充分利用这些数据呢?每个互动都有两个方面:这个互动

    为你完成了什么;对于刚和你交互的系统,它教会了这个系统什

    么。懂得这些是在 21世纪过上幸福生活的第一步。教授学习算

    法,这些算法就会为你服务,但首先你得了解它们。我工作的哪

    些部分可以交给学习算法来完成,哪些不可以?最重要的是,我

    该如何利用机器学习把工作做得更好?计算机是你的工具,而不

    是对手。有了机器学习的辅助,经理会变成超级经理,科学家会

    变成超级科学家,工程师会变成超级工程师。未来属于那些深深

    懂得如何将自己的独特专长与算法的擅长结合起来的人。

    也许终极算法就像一个潘多拉盒子,最好不要打开。计算机

    会奴役甚至消灭我们吗?机器学习会变成独裁者或者邪恶公司的

    侍女吗?知道机器学习的发展方向有助于帮助我们了解该担心什

    么、不该担心什么、应该怎么处理问题。《终结者》中,超级人工

    智能变得有情感,并通过机器人军队征服了人类。这个场景不会

    和我们将在本书中谈到的学习算方法一起发生。因为计算机会学习,并不意味着它们可以魔法般地实现自己的愿望。学习算法学

    着完成我们为它们设定的目标,它们不会改变这些目标。我们要

    担心的是,它们服务我们的方法可能会对我们有害,而不是有

    益。因为它们知道的东西不多,改善的方法就是教它们更好的方

    法。

    很多时候,我们得考虑,如果终极算法落入坏人手中,它会

    做些什么。第一道防线就是确保好人第一个拿到它,或者如果它

    不明白谁是好人,就要保证它是开源的。第二道防线就是要意识

    到,无论学习算法有多好用,也只是在获得数据时好用。控制了

    数据的人也就控制了学习算法。你对数字化生活的反应,不应该

    是退回到木屋中——树林里也装满了传感器,而应努力拿到对你

    来说重要的数据。能有推荐系统为你找到想要的东西,并把东西

    带给你,这样很好,没有这些系统你会感到失落。它们带给你的

    应该是你想要的东西,而不是其他人想让你拥有的。控制好数

    据,控制好算法掌握的模型的所有权,这就是21世纪战争的内

    容,这些战争可能会发生在政府、企业、工会以及个人之间。为

    了共同利益,你也有道德义务来分享数据。只依靠机器学习不能

    治愈癌症,依靠癌症病人却可以做到这一点,方法就是为了将来

    的病人,分享自己的信息。

    新的万有理论

    当今的科学已经被彻底四分五裂,就像巴别塔中的亚社会都

    说着自己的俚语,只能看到相邻的几个亚社会。终极算法会给出

    所有学科的统一思想,并有潜力提出一套新的万有理论。乍一

    看,这个说法可能会有点奇怪。机器学习所做的,就是从数据中

    引出理论。终极算法本身如何能发展为一套理论?难道弦理论是

    万有理论,而终极算法和万有理论没有任何相似点? 为了回答这些问题,我们得首先明白什么是科学理论,什么

    不是。理论是关于世界是什么的一系列约束条件,而不是对世界

    的完整描述。为了获得对世界的完整描述,你必须将理论和数据

    结合起来。例如,想想牛顿第二定律。定律说明力等于质量与加

    速度的乘积,或者写成F=ma 。定律并没有说明是哪个东西的质量

    或者加速度,或者作用力是什么。定律只要求,如果某物体的质

    量是 m,加速度是 a ,那么作用在它之上的所有力的总和就肯定

    是ma 。虽然该定律排除了宇宙的某些自由度,但没有排除所有。

    所有其他物理理论也都如此,包括相对论、量子力学以及弦理论,这些理论其实都是对牛顿定律的完善。

    理论的强大之处在于它简化了我们对世界的描述。有了牛顿

    定律,我们首先只需知道某个时间点所有物体的质量、状态、速

    度,其次就是所有时段的状态及速度。凭借过去、未来宇宙历史

    中可区分时刻的数量这样一个因素,牛顿定律概括了我们对世界

    的描述。太了不起了!当然,牛顿定律也仅仅是接近准确的物理

    定律,因此让我们用弦理论来替代它,同时忽略弦理论是否永远

    证实有效的问题。我们能做得更好吗?可以,有以下两个原因。

    第一,实际上,我们没有足够的数据来完全确定世界,甚至

    忽略不确定性原则,准确知道世界上所有粒子某个时间点的状态

    和速度,也远远做不到。因为物理定律是混沌的,不确定性随时

    会混杂进来,而且在短时间内能确定的东西太少。为了准确描述

    这个世界,每隔一段时间,我们就需要一批新数据。实际上,物

    理定律只告诉我们局部会发生的事情。这一点大大削减了它们的

    力量。

    第二,虽然我们在某个时间点拥有关于世界的完整知识,物

    理定律还是不能让我们确定这个世界的过去和未来。这是因为,确定世界的过去和未来所需的全部计算量,对于能想象得出的计算机来说,超出了它们的能力范围。实际上,为了完善魔法宇

    宙,我们需要另外一个一模一样的宇宙。这也是为什么弦理论多

    数情况下在物理学之外就变得无关紧要了。我们在生物学、心理

    学、社会学或者政治学中的理论,并不是由物理定律推理得来

    的,这些理论得从零开始构建。我们假定,当这些理论应用到细

    胞、大脑、社会中时,它们就是物理定律对此所做预测的近似理

    论,但我们无法知道。

    不像特定领域的理论只在该领域中才有权威,终极算法在所

    有领域中都有权威。在X领域中,终极算法不如X领域的主流理

    论有权威,却在所有领域中比该主流理论有权威——当我们考虑

    到整个世界时——终极算法普遍比所有其他理论有权威得多。终

    极算法是所有理论的起源。为了获得 X理论,我们要给终极算法

    添加的就是推导X理论所需要的最少量的数据

    (在物理学中,需要添加的仅仅是大约几百个重要实验的结果)。

    结果就是,在同样的情况下,终极算法很有可能成为万有理论的

    最佳出发点。请史蒂芬·霍金原谅,和弦理论相比,终极算法最后

    会告诉我们更多关于上帝思考的东西。

    有些人可能会说,寻找通用学习算法就是一种追求虚荣心的

    表现。其实梦想并不是追求虚荣心,在魔法石以及永动机并肩作

    战下,也许终极算法在众多伟大的幻想中会代替虚荣心的位置。

    寻找终极算法更像测定海上的经度,人们一开始认为这太困难,于是放弃了,直到一个孤独的天才解决了这个问题。寻找终极算

    法更有可能就是一代一代人的任务,就像天主教堂是由一块块石

    头砌成的一样。找到终极算法的唯一方法就是,早早动身踏上旅

    途。 未达标准的终极算法候选项

    那么,如果终极算法存在,它是什么?看起来很明显的一种

    候选项就是记忆:只要记住你见过的所有东西,过一段时间,你

    就好像见过世上的一切东西,所以也就无所不知了。这里的问题

    是,正如赫拉克利特说的那样,你无法两次踏入同一条河流。世

    上的东西比你能看到的多得多。无论你观察过多少朵雪花,下一

    朵还是会不一样。即使宇宙大爆炸时你在场,但从那以后无论在

    哪里,对于未来你可能看到的事物,你现在看到的也只是一小部

    分。如果你目睹一万年前地球上的生命,也不会对你未来将看到

    的东西有什么影响。在某城市长大的人搬到另外一个城市,他不

    会陷入瘫痪,但只会记忆的机器人就会陷入瘫痪。此外,知识不

    仅是事实清单,知识的范围很广,而且还有结构。“人固有一死”

    比70亿条死亡声明要简洁得多。记忆无法像终极算法那样让我们

    做到这些。

    终极算法的另外一个候选项就是微处理器。计算机里的微处

    理器可以看作单一算法,其任务是执行其他算法,就像通用的图

    灵机那样。而且微处理器可以运行一切可以想得到的算法,这由

    它的内存和速度上限决定。实际上,对一台微处理器来说,一种

    算法也只是另外一种数据。这里的问题是,如果微处理器单独工

    作,那么它什么也不会干,它只会待在那儿,一整天什么也干不

    了。它运行的算法从哪里来?如果这些算法由人类程序员来编

    码,那么就不会涉及任何学习行为。即便如此,人们还是会有一

    种感觉,认为微处理器是终极算法的完美模拟。微处理器不是运

    行一切特殊算法最好的硬件,最好的硬件应该是特定用途集成电

    路,专为那种算法而精确设计。我们却把微处理器几乎用于所有

    应用中,因为即使它效率较低,但却非常灵活。如果我们得为每

    个新的应用构建一个特定用途集成电路,那么信息革命也绝不会发生。同样,终极算法也不是学习一切特定知识最好的算法,最

    好的算法应该是已经编码了大多数知识的算法(或者说所有知

    识,这样数据就变得多余)。问题却在于从数据中得出知识,因为

    这样做更简单,成本也更低,所以学习算法越通用越好。

    一个更加 ......

您现在查看是摘要介绍页, 详见PDF附件(5305KB,368页)