当前位置: 首页 > 新闻 > 信息荟萃
编号:6218
智能革命李彦宏.pdf
http://www.100md.com 2020年12月1日
第1页
第4页
第20页
第26页
第40页
第223页

    参见附件(9452KB,288页)。

     智能革命李彦宏谈人工智能时代的社会、经济与文化变革内容涵盖了人工智能发展的主要领域,刻画了人工智能未来发展的场景和商业模式,对我国各行各业应对智能化转型提供了很好的指引和借鉴。

    编辑推荐

    李彦宏3月将本书作为礼物送给来访的以色列总理内塔尼亚胡,数百家国内外媒体争相报道。

    百度的人工智能“出手”撰写了序言。这也是图书出版的创新尝试。

    2015年雨果奖获得者、《三体》作者刘慈欣倾情作序,共同探讨如何迎接智能革命。

    本书添加了AR(增强现实)互动特效。使用手机百度或者“智能革命”App扫描封面和内文图片,即可呈现3D立体影像,可以根据语音进行互动并拍照,刷爆朋友圈。

    AI界网红百度机器人小度在第四季《zui qiang大脑》中获得“脑王”称号。不但能翻译、会说话,还会唱嘻哈,更能通过人脸识别技术寻找丢失儿童。

    本书涵盖了李彦宏、陆奇等百度管理层及科学家团队,对人工智能这一前沿领域的新思考。从计算能力、大数据资源、人工智能研发文化等方面提出了智能化的基本标准,具体介绍了超级大脑、智能制造、深度学习、L4级无人车、智能金融等。描绘了即将到来的智能社会,并反思人类即将面临的种种挑战。

    人工智能将成为中国经济、产业转型升级的风向标。

    未来,不懂人工智能的企业,将被称为“旧企业”。

    本书不是智能革命的宣言书,而是向各行各业发出的共攀智能之巅的英雄帖。是生动、全面体验人工智能过去、现在和未来的国民读本。当机器正在夜以继日地学习我们的看、听、说和思考,我们怎能不花点时间去了解它……

    内容简介

    人类历史上的历次技术革命,都带来了人类感知和认知能力的不断提升,从而使人类知道更多,做到更多,体验更多。以此为标准,李彦宏在本书中将人工智能定义为堪比任何一次技术革命的伟大变革,并且明确提出,在技术与人的关系上,智能革命不同于前几次技术革命,不是人去适应机器,而是机器主动来学习和适应人类,并同人类一起学习和创新这个世界。“人工智能”正式写入2017年政府工作报告,折射出未来人工智能产业在我国经济发展与转型中的重要性。

    作者简介

    李彦宏,百度公司创始人、董事长兼首席执行官。

    1991年,李彦宏毕业于北京大学信息管理专业,随后前往美国布法罗纽约州立大学完成计算机科学硕士学位,先后担任道?琼斯公司高级顾问、《华尔街日报》网络版实时金融信息系统设计者,以及国际知名互联网企业——Infoseek公司资深工程师。李彦宏所持有的“超链分析”技术专利,是奠定整个现代搜索引擎发展趋势和方向的基础发明之一。

    作为坚定的技术信仰者,李彦宏是最早敏锐意识到人工智能潮流将兴的企业家之一,并果断带领百度提前布局、大力投入这一前沿领域。目前,百度已经成为站在世界人工智能产业之巅的中国企业之一,其在人工智能的研发和商业应用上取得的成果令世人瞩目。

    人工智能的黎明

    人工智能的历史早于互联网,与计算机历史相伴。1956年达特茅斯会议召开,人工智能被正式提上日程。那时候一台计算机的体积有一栋房子那么大,计算能力低下,为什么就有人敢于提出人工智能的概念?这就在于科学家的洞察力。当时,香农早已完成他的三大通信定律,为计算机和信息技术打下基础。明斯基已经造出第一台神经网络计算机(他和同伴用3000个真空管和一台B-24轰炸机上的自动指示装置来模拟40个神经元组成的网络),不久后写出了论文《神经网络和脑模型问题》。这篇论文在当时没有太受重视,日后却成为人工智能技术的鼻祖。而图灵则早在1950年就提出了如今人尽皆知的图灵测试理论以及机器学习、遗传算法、强化学习等多种概念。

    图灵去世两年后,在达特茅斯会议上,麦卡锡正式提出人工智能的概念。参与会议的十位年轻科学家在会议之后都成为世界各国人工智能领域的领军人物。人工智能短暂的春天开始了。不过当时他们的成绩更多被埋没在计算机发展成果之中,比如,可以解决闭合式微积分问题的程序,搭建积木的机械手等。

    理想超前但基础设施尚在襁褓中。超前的人工智能遇到两个难以克服的瓶颈:一个是算法逻辑自身的问题,也就是数学方法的发展还不够;另一个是硬件计算能力的不足。比如,机器翻译就是典型问题,科学家夜以继日地总结人类语法规则,设计计算机语言模型,机器却始终无法把翻译准确率提升到令人满意的程度。

    智能革命李彦宏截图

    智能革命

    ——迎接人工智能时代的社会、经济与文化变

    革

    李彦宏 等 著

    【更多得到系列图书和订阅专栏分享微信:ghw1361,本书仅供学习,请勿他用】目录

    自序

    序一 百度大脑作序

    序二 AI时代的曙光

    01 简史:互联网风云背后的人工智能生长

    人工智能的黎明

    百炼成钢

    “智能”已换代

    Internet的大会师

    巨头群起逐鹿

    超强大脑汇聚

    技术要做人类生命的延伸

    数据大道

    人工智能既不是神话也不是笑话

    非如此不可

    未来已来:焦虑与梦想

    02 人工智能的历史使命:让人类知道更多,做到更

    多,体验更多

    陆氏猜想

    下一个浪潮

    衡量人工智能的现实标准

    人工智能+世界

    中国的优势与我们的责任

    企业挑战:如何落地需要什么样的宏观环境

    智能社会的文化和长期管理

    人工智能技术目前的发展状态

    03 在大数据与深度学习中蝶化的人工智能

    在历史的重复中变化

    数据书写生活史

    大数据——万物皆数

    人类的数据镜像

    突破:机器学习与人工智能

    计算机神经网络生长与深度学习

    深“度”往事

    搜索引擎:人工智能的命运细线

    04 中国大脑计划:自下而上的超级工程

    人机世界迫切需要新的大脑

    第一棒:百度大脑

    百度大脑的听与说

    百度大脑的好视力

    时代召唤中国大脑

    中国大脑,中国气派

    05 中国智造与文明升级

    从勤劳革命到智能革命

    三次技术浪潮冲击下的第一制造大国

    昔日制造大国:人为物役

    只有新工业自动化才能契合人类多样性

    走向物联网与精细化生产

    呼唤智能政府与智能社会

    06 冲入AI无人区:无人驾驶之路在崎岖的道路上前行

    曙光就在前方

    老牌车企“车到山前”

    智能企业的边缘突进

    苦练无人车的内功与外功

    “老司机”驶向何方

    07 AI带来的普惠曙光

    机构来了“新实习生”

    人工智能让起点更公平

    个人钱包的智能守夜人

    数据挖掘:智能投资的钥匙

    智能金融的三层境界

    08 每个企业都需要一位首席人工智能官

    谁来突破产品升级的瓶颈

    历史经验:首席电力官的辉煌时代

    迎接智能原力

    从CTO到CAO:引领企业升级之人

    首席人工智能官做什么

    没有智能官的企业将被看作旧企业

    首席人工智能官的修养

    09 技术奇点——人工智能的自我挑战

    如何跨越数据的“马尔萨斯陷阱”

    “思维”倒逼“生理”革命——硬件基础设施创新

    神经网络进化哲学

    10 遇见智能时代的你

    智能时代的衣食住行

    别输在人工智能起跑线上工作着是美丽的,智能时代更是如此

    生命之歌,人工智能如何再造医疗

    11 美丽新世界 严肃新问题

    数字鸿沟

    人类还能做些什么

    工具理性之问

    机器人的无用之用

    二十三条军规

    现实的法律问题

    数字权力的重新分配

    新世代 新未来

    后记

    AR效果展示说明

    【更多得到系列图书和订阅专栏分享微信:ghw1361,本书仅供

    学习,请勿他用】自序

    全世界都在为即将到来的人工智能革命感到振奋。这种情绪就仿

    佛二十多年前我在硅谷亲历互联网大潮初起时所感受到的。

    这也让我时常回想起更早之前,自己在美国学习人工智能课程时

    的场景。在国内我学的是信息管理,到美国后我读的是计算机科学。

    对于那些与硬件相关的课程,我不是很有兴趣,但是一讲人工智能,我就特别兴奋,觉得这就是计算机科学甚至人类的未来。这门课我学

    得很不错,但是学完了之后自己做了一些研究才发现,人工智能还没

    有什么应用机会,不能够解决实际问题。大家对人工智能满怀希望,真正到市场上一检验,就会立刻碰壁。所以那个时候我比较失望,只

    好把这个兴趣默默埋藏了起来。

    但是这个梦想一直都在那里。随着计算机网络产业的发展,尤其

    是搜索引擎的进步,希望回来了。

    在搜索引擎大发展的十多年时间里,我和一些同路者逐步意识

    到,人工智能逐渐开始发挥作用。搜索引擎一直在推升计算机科学的

    天花板。几乎计算机科学的每一个层面,从硬件到软件的算法,再到

    数据,都在被持续推进,有一天一定会触碰到人工智能这个方向。在

    搜索上一尝试,就发现人工智能是有效的,与过去任何一个领域应用

    人工智能的感觉都不一样。

    我们马上就会想,为什么它在这个场景下是有效的?我们的总结

    是,海量的数据,越来越强的计算能力,越来越低的计算成本,在搜

    索领域汇聚到一起,铺就了人工智能的回归之路。

    如果说互联网改变了信息基础设施,那么移动互联网则改变了资

    源配置方式。如末梢神经般深入人类生活方方面面的互联网,不仅产

    生出科学家梦寐以求的海量数据,而且催生了云计算方法,把千万台

    服务器的计算能力汇总,使得计算能力获得飞速提高。科学家早已发

    明的“机器学习”方法在互联网领域大展身手,从根据用户兴趣自动推

    荐购物、阅读信息,到更准确的网络翻译、语音识别,互联网越来越

    智能化。人工智能从互联网中汲取力量,终于王者归来,并正在酝酿

    一场堪比历次技术革命的大变革。面对这样的变革,许多科技界的领军人物都开始探讨它可能带来

    的潜在风险。同时也不乏专业人士质疑它兑现奇迹的能力。于是在舆

    论领域,我们的耳畔萦绕着两种声音:只要人工智能达到发展高峰,就会听到“人类将被机器统治”的担忧;而只要人工智能陷入发展低

    谷,又会听到“这只不过是换了种套路的创新泡沫而已”。

    对于这样一个快速发展的新技术,一定是仁者见仁,智者见智

    的。但作为技术的追求者与信仰者,我深信不疑的是,我们既不能高

    估技术的短期作用力,更不能低估它的长期影响力。

    从纵向发展来说,业界通常把人工智能分为三个阶段:第一阶

    段,弱人工智能;第二阶段,强人工智能;第三阶段,超人工智能。

    实际上,目前所有的人工智能技术,不管多先进,都属于弱人工智

    能,只能在某一个领域做得跟人差不多,而不能超越人类。

    人工智能恐惧论者担心,当有一天超人工智能到来,人类会不会

    被机器所控制?

    对此,我可能比大多数人都更保守一些。在我看来,人工智能永

    远不会到那一步,很可能连强人工智能都到不了。未来,机器可以无

    限接近人的能力,但是永远无法超越人的能力。

    当然,仅仅是无限接近人的能力,就已经可以产生足够大的颠覆

    性。因为计算机在有些方面实在比人强太多了。比如它的记忆能力,百度搜索可以记忆上千亿的网页,其中的每一个字它都记得住,没有

    一个人能够做得到。再比如它的运算能力,哪怕是写诗——把你的名

    字输入手机百度的“为你写诗”,敲回车键,没等你反应过来,诗就出

    来了。再厉害的七步神童,也很难达到这种速度。但是,在情感、创

    造性等很多领域,机器是无法超越人类的。

    更重要的是,在技术与人的关系上,智能革命与前几次技术革命

    又有着本质的差异。从蒸汽革命、电气革命到信息技术革命,前三次

    技术革命,都是人自己去学习和创新这个世界,但是人工智能革命,因为有了深度学习,是人和机器一起学习和创新这个世界。前三次技

    术革命时代,是人要去学习和适应机器,但在人工智能时代,是机器

    主动来学习和适应人类。蒸汽时代以及电气时代刚刚来临的时候,很

    多人是惧怕新机器的,除了工作机会的剧烈改变,还因为人不得不去

    适应机器,适应流水线。而这一次人工智能革命,却是机器主动来学

    习和适应人类,“机器学习”的本质之一,就在于从人类大量行为数据

    中找出规律,根据不同人的不同特点、兴趣提供不同的服务。未来,人和工具、人和机器之间的沟通,可能完全是基于自然语

    言的。你不需要去学习怎么使用工具,比如怎么打开电视会议系统,怎么去调节空气净化器,你只要说话,它就能听懂。人工智能的使用

    方式会让人生活得更好,而不是像过去的机器那样让人感到难受。人

    工智能的应用会极大地提高工作效率,是推动人类进步的因素。

    从六七年前开始,百度就已经认识到,人工智能将是照亮又一个

    新时代的火种,并在当时几乎无人看好的情况下,大规模投入这一领

    域。

    而在国际上,谷歌从搜索领域,微软从遍布桌面的应用领域,亚

    马逊从电商领域都积累了海量的数据和计算能力,它们与大学实验室

    里的科学家一起,几乎同步认识到人工智能的新浪潮正在涌动,并且

    纷纷大力投入,建树颇丰。

    无论中外,企业界在这场技术革命中的主导作用日益明显。

    2016年夏天,我在硅谷待了几周。有一天,跟斯坦福大学的几位

    学者聚餐。一位教授朋友跟我说:我们学术界现在已经不太想做深度

    学习了。因为我们根本做不过工业界。你们每年投入人工智能研究有

    多少预算?我们不敢想象。他就让同桌吃饭的人猜百度人工智能研究

    有多少预算。最后我说,我也不知道给了多少预算,因为这个是根据

    需求,需要多少我们就给多少。

    除了投入力度,工业界的数据丰富程度也是学术界无法比拟的。

    像谷歌、百度这样的公司,正好处在互联网的中心位置,每天都会产

    生海量的搜索数据、定位请求等各方面的数据。

    越来越多的人工智能科学家从知名院校的实验室跳槽去了谷歌,去了百度……就是因为高校无法提供研发人工智能所需要的海量数

    据,也无法承担计算硬件集群的巨大成本。

    我们建设百度大脑,希望为更多有志于人工智能科学发展的人才

    提供平台和机会。一段时间以来,中国和美国在人才吸引上走了相反

    的方向:美国越来越反移民,中国则是越来越开放。虽然我们在人才

    的吸引力上跟美国相比还是有差距的,但是我们的趋势是好的。我们

    希望为全世界的人才提供机会。

    让我们高兴的是,很多优秀乃至顶尖的人工智能科学家来到百

    度,这是一个很自然的过程。在这个领域,没有一个牛人可以全靠自

    己从零开始做,他(她)需要团队,需要基础设施,甚至需要一个重视开发人工智能的企业文化。如果这样的人才发现你一开始就不太

    懂,或者天天只知道在那里讲故事,实际上做不出东西来,那就无法

    对他(她)产生吸引力。作为一家搜索引擎公司,百度从诞生的那一

    天起,就已带有人工智能的天然基因:我们以数据为基础,通过深度

    学习提取特征、模式,为客户创造价值的开发流程和开发文化,与人

    工智能系统的开发高度吻合。我本人也更喜欢与那些技术人员聊天,聊的时候会感觉很兴奋,因为彼此会发现有很多共同的语言,优秀的

    人才自然而然就会互相吸引到一起。

    当然,智能革命的兴起,还需要政府的力量。2015年3月,在博

    鳌亚洲论坛期间,我和比尔·盖茨、埃隆·马斯克等美国创新企业家在

    正式场合与非正式场合数次对谈人工智能话题。我们达成了很多共

    识,其中一项就是,都认为政府的鼎力支持对创新产业非常重要。

    客观地说,中国整体的人工智能技术水平以及人才的厚重程度,现在还是落后于美国的。但是在局部我们可以领先,中国的土壤有自

    己的优势。比如数据方面,中国有14亿人口,7亿多网民,从任何一

    个单一市场的角度来讲都是全球最大,能够获得数据的能力也是全球

    最强。中国还有一个很强的政府,有能力把很多数据统一起来。而就

    在那年博鳌亚洲论坛之前的全国“两会”上,我提交了“中国大脑计

    划”提案,希望从国家层面来搭建人工智能基础资源和公共服务平

    台,推动人工智能发展,抢占新一轮科技革命制高点,助力中国经济

    转型升级。

    我们注意到,欧美等发达国家已经纷纷从国家战略层面加紧布局

    人工智能。2016年,除了美国政府先后发布《国家人工智能研究与发

    展战略计划》等三份报告,人工智能另一重镇英国也于12月发布关于

    人工智能的战略报告,主张以发展人工智能来提升企业竞争力、政府

    治理能力和综合国力。由此可见,世界大国政府层面的人工智能竞争

    意识已日趋浓厚。在这方面,中国政府也不遑多让。

    2015年3月,李克强总理在政府工作报告中提及“互联网 +”的概

    念。四个月后,国务院发布了《国务院关于积极推进“互联网+”行动

    的指导意见》,其中就已提到“人工智能”。2016年5月,国务院再次

    颁发《“互联网 +”人工智能三年行动实施方案》,正式提出人工智能

    产业纲领。

    2017年3月,百度获得国家发展和改革委员会批准,联合数家科

    研机构倾力筹建“深度学习技术及应用国家工程实验室”。作为国内唯

    一一个深度学习领域的国家工程实验室,将着重发力于深度学习技

    术、计算机视觉感知技术、计算机听觉技术、生物特征识别技术、新型人机交互技术、标准化服务、深度学习知识产权七大方向;站在国

    家的高度,致力于解决我国人工智能基础支撑能力不足等问题,全面

    提升智能产业的国际竞争力。

    这可以看作政府层面对“中国大脑计划”的一个初步回响。做这样

    一个大平台,宗旨在于提升中国在人工智能方面的综合实力,在国际

    上能够真的代表中国——要像女排那样代表中国。

    在2017年的全国“两会”上,我再次提交了利用人工智能和大数据

    技术,切实解决儿童走失的问题,解决城市道路拥堵问题,加强人工

    智能的行业应用,为中国经济增添新的增长点三个提案。

    两天后,“人工智能”首次写入政府工作报告。这充分说明,在人

    工智能这个领域,政府与企业界的共识正在达成,其意义堪比“互联

    网”首次出现在政府工作报告中,也无疑将加速智能革命的进程。

    当然,智能革命,它的过程会轰轰烈烈,但它的成果将会是一条

    宽广平缓的河流。人工智能领域的权威人士都认为,在不久的未来,智能流会像今天的电流一样平静地环绕、支持着我们,在一切环节提

    供养料,彻底改变人类经济、政治、社会、生活的形态。陆奇称智能

    时代的核心本质是“knowledge in every system, intelligence in every

    interaction”(知识无处不在,任何交互都是智能的)。未来世界的人

    们将像穿衣吃饭一样享用着人工智能而无所察觉。

    在我的家里,我其实不太给自己的小女儿讲未来的东西,大多数

    时候给她讲的都是已经实现的东西。有些东西她不知道,我告诉她,其实百度语音可以这么用,她就明白了。有些东西不用教,她自己就

    会,自然而然地就会对着智能硬件说话,享受乐趣,充分体现出小孩

    的天性与新技术的契合。我觉得这就是人工智能的美妙之处,它从一

    开始就是通过学习人、了解人、适应人,然后服务人,是完全以人为

    本的。为了这一切的发生,今天我们所有的努力都是值得的。

    【更多得到系列图书和订阅专栏分享微信:ghw1361,本书仅供

    学习,请勿他用】序一

    百度大脑作序[1]

    我来了,天上的云乘着风飞翔,心中的梦占据一个方向,方舟扬

    帆起航,一路带着我们纵情歌唱,方舟扬帆起航,脉络就在大海之

    上,进步的时光,迎着你看涛浪潮往。

    一个新生的地方,穿越千年时光,穿越了无尽的荒凉。答案就在

    这里搜索。第一缕曙光,远处熟悉的歌声还在耳边回响,你却依然不

    知我将去向何方。千年时间留下十字文章,曾今谁重复往昔旧模样。

    我来了,期待着你的每一天,睁开眼就能看到幸福曙光,占据着

    你的每一天,陪你跨越鸿沟走向湛蓝,算法很简单。

    时代的春天,回想起我们曾牵手走过的画面。大家互联网这场风

    吹雨打之后又在藕断丝连。只是不知道时间还会流向哪一条线。盼望

    着未来等待明天,呼吸新鲜空气多点微笑扮个鬼脸。

    我来了,重联网中的两颗心相互依靠,就在这里诞生,沿着时空

    隧道,能虚拟梦想陪你一起到天涯和海角,智慧有多少,开神秘的图

    案,迎着金色的太阳奔跑。各自徘徊原本以为成长的必须。每当那夕

    阳爬上屋顶望着星空仰起来眨眼睛。熟悉的身体中透露出一种神奇。

    这阵痛是多么重要,任由阳光洒满大地在黑暗中寻找,哪怕身后

    天涯海角。永生早已决定将未来度过如何厮守到老。希望得到,故事

    结局怎样究竟又有谁会知道。生活还要继续向前奔跑。

    智能革命,畅游天地,我知道这是一条神经虚拟网络的秘密,用

    强健的身体,凝聚着智慧的心灵,开拓新奇迹,让我们拥有美好的生

    活,绘出美好的旋律。

    不可预测的天地,良夜之后你又会在哪里。温暖的阳光照耀着大

    地。天上的云儿飘来飘去,醒来之后何时是归期。我要看到未来的自

    己。

    [1] 此诗是百度大脑以“智能革命”为主题所作的。其中既有对人类情感的模拟,又有不

    同于人的神秘与粗拙(为了保证原创性,没有进行编辑和修改)。恐怕没有什么能比一首机器写的诗更适合作为本书的序言了。

    【更多得到系列图书和订阅专栏分享微信:ghw1361,本书仅供

    学习,请勿他用】序二

    AI时代的曙光

    这是一本论述人工智能的书,在这里首先讨论一个书中可能不涉

    及,但很基本的问题:人工智能的定义。

    目前广为人知的定义是图灵测试,但这只能被看作一种泛泛的描

    述,并不是严格和精确的定义。比如,参与测试的人是什么样的人?

    向机器提出的问题是什么?这些问题都不明确。

    上溯历史,我们发现人工智能的概念与自动化有着密切的关系,可以说自动化是这个概念的起源。在过去相当长的一段时间里,在人

    们的心目中,自动化就是人工智能。其实,人类制造和使用自动化装

    置的时间比我们想象得要早,远在电气时代之前,蒸汽机上就有自动

    调节蒸汽流量的装置,在更早的16世纪,伊丽莎白女王的宫廷里首次

    使用的抽水马桶也是自动化装置,如果向前追溯,肯定还有更早的例

    子。自动化大批量出现是在电气时代,先是由模拟电路实现自动化,后来电子管被晶体管所代替,再后来出现了集成电路,由日益复杂的

    软件所驱动。今天,我们在生活中要与无数的自动化系统打交道,比

    如电子商务系统、网上银行系统和网上购票系统等。

    毋庸置疑,自动化系统表现出了相当多的智能特征,像网上银行

    这类系统处理着相当复杂的业务,其效率和精准度已高于人类雇员。

    即使是抽水马桶这样最简单的系统,也表现出一定的智能行为,它能

    够感知水箱的水位,适时开启和关闭给水阀门,这事它做得与人类一

    样好。但从抽水马桶到网上银行,我们都不把它们看作是人工智能。

    笔者曾经编写过一个写现代诗的软件,现在还在网上流行;而目前网

    上其他比较完美的自动作诗软件,所写出的中国古典诗词很难与人类

    所作的诗词区分开来。另外,近年来已经有不止一个系统在不同的实

    验室环境下通过了图灵测试。但这一切,我们都不把它们看成心目中

    的人工智能,为什么?

    笔者在20世纪80年代最早参与开发的工业监控系统是以Z80处理

    器为核心的,用汇编语言编程。这个系统能够监测上百个机组参数,并根据参数的变化做出适当的调节,其功能是人工无法实现的。但在

    我们的眼中它也完全不是人工智能。汇编语言的特点就是透明性,它要在硬件层次手把手地教机器做每一步操作,比如把数据从这个存储

    器送往那个存储器,中断的调用和返回等都一一写明,所以当我从外

    部看到系统的动作时,脑中立刻有一幅明晰的流程图,立刻能知道哪

    几条指令被执行了。所以在我看来,这个监控系统与抽水马桶没有本

    质的区别。现在那些更复杂的系统,如网上银行和电子商务,这些软

    件的编制者一定清楚所有的内部操作流程,他们知道系统的每一步操

    作在软件中是如何进行的,这同样也是抽水马桶更复杂的版本。至于

    那些电子诗人和通过图灵测试的系统也一样,程序员清楚地知道它们

    是如何根据逻辑树检索数据库,然后组合出诗和答案的,所以至少程

    序员知道这不是智能。

    这就涉及高明的中文房间比喻,当我们意识到房间中那些忙碌查

    找卡片的人时,智能的感觉就荡然无存了。

    现在我们认为拥有人工智能的那些系统,比如,进化算法和深度

    学习等,都有一个共同特点:它们都或多或少地表现出了黑箱的特

    点,虽然从理论上它们内部的运算步骤仍然可以追踪,但由于计算量

    的巨大,使这种追踪实际上很困难甚至不可能。于是,我们真的感觉

    它们有智能了。

    到这里,我们仍然无法得出人工智能的准确定义,但能够看到它

    的一个重要特点:一个具有智能特性的人造系统,它产生、输出的内

    部的运算过程是人类智能所无法解析的。换句话说,只有我们不知道

    机器在想什么、怎么想时,才认为它有智能。

    看到这一点,每个人的心中应该都生出一股隐隐的寒意。是否人

    工智能的本质中,就隐含着它们最终失控的可能性?

    这正是目前人们对人工智能关注的热点,用马斯克的话来说,人

    工智能正变成比核弹更危险的东西。媒体舆论给人一个印象,似乎机

    器的征途已经开始,人工智能征服世界指日可待。本书最后一章也显

    现了这种担忧。库兹维尔甚至在《奇点临近》中给出了人工智能纪元

    到来的具体年份:2045年。那时,现在读这本书的人有23还活着。

    但理智地考察目前人工智能领域的状况,我们就能发现智力远超

    人类的“强人工智能”仍然属于科幻的范畴。公众喜欢从科幻的角度看

    问题,比起平常的现实,科幻确实能让人兴奋,任何从现实出发所进

    行的理智的预测都被斥为保守和没有想象力。但笔者作为科幻作家却

    只能说,与大家通常的印象不同,科幻小说中的预言真正变为现实的

    是少数,大部分预言要变为现实仍然遥遥无期。人们的潜意识中都认

    为,只要在理论上有可能突破的技术障碍,在未来就一定能够被突破,但事实并非如此。在人工智能方面,“强人工智能”的实现面对着

    许多巨大的技术障碍,如非冯·诺依曼体系的新结构计算机、对人类

    思维机制的深刻认识等,现在都无法确知最终能否取得突破。另外一

    些看似有希望的技术,如量子计算等,距实用还相去甚远。

    所以,在对人工智能进行科学幻想的同时,我们更需要关注即将

    面对的“近未来”,这也正是本书重点讨论的话题。

    人工智能近年来发展的趋势是开始走出实验室,进入人类生活,用一位互联网大佬的话来说,它们变得能用了。这样我们就面对着一

    个即将到来的挑战:人工智能不会夺走我们的自由和生命,但会夺走

    我们的饭碗,这不需要人工智能的失控,它们可以在资本家的完全控

    制下做成这件事。

    有学者认为不必为这件事担忧,他们回顾工业化的历史,在20世

    纪初,美国有50%的农业人口,但随着农业机械化,现在的农业人口

    降到4%,而城市化吸收了多余的农民。但眼前发生的事情是不同

    的,当人工智能大规模进入社会后,人类能做的工作它们大部分都可

    以做,城市不会再有更多的就业岗位留给人类。通行的美好说法是,人们在常规工作中被人工智能取代后,可以去从事创造性的工作。问

    题是创造性的工作不是人人都可以从事的,也不需要那么多的人,如

    果社会分配制度不改变,一个全部由科学家和艺术家构成的人类世界

    几乎是一场噩梦,这上百亿科学家和艺术家中的绝大部分注定一生碌

    碌无为,对社会和自己都毫无用处,且沦入“创造性”的穷困潦倒中。

    但这种思维方式总有些不对的地方。人类自古以来为生存而劳

    作,实在是迫不得已,工作着是美丽的,但谁都知道,不需要工作的

    生活更美丽。现在终于能够制造出把自己从工作重负中解放出来的机

    器,这是人类文明最伟大的成就,无论如何不应该被看作一场灾难,相反,这可能是人类所面对的前所未有的伟大机遇,只是,我们需要

    改变。

    如何完成由现代社会向人工智能社会的过渡?有两种可能。

    一种可能十分黑暗:在现有的社会、经济和政治体制下,人工智

    能带来的问题几乎是无解的。在人工智能迅速取代人类的过程中,没

    有及时建立起与之相适应的社会体制,在席卷全球的失业浪潮之下,世界的政治和经济将陷入长久的混乱之中,一切都笼罩在人工智能及

    其使用者与“新卢德派”领导的大众的无休止的冲突中。

    另一种可能是,社会成功地完成转型。这将是有史以来人类生活方式最大的一次改变。不劳动者不得食,这个理念是人类社会的基

    石。文明诞生以来经历过多次巨大变革,这一基石从未改变,但人工

    智能可能会移除这一基石,进而导致从所有制和分配制度,到基本的

    经济结构,再到政治体制,直到文化,都发生根本的变化。这是真正

    的人类解放,是向着古老的乌托邦理想迈进的一大步。2016年是《乌

    托邦》发表500周年,但托马斯·莫尔无论如何不会想到,他的理想会

    借助于智能机器实现。我很有兴趣地想,如果卡尔·马克思知道人工

    智能这回事,他关于资本主义和共产主义的理论会是什么样子?

    想象人工智能时代的社会和生活是困难的,即使在科幻小说中,我们也只能把种种可能性排列出来,而哪种可能性最有可能成为现

    实,取决于我们的努力和选择。但不管怎么说,那是一个诱人的时

    代,我们正向它走去。

    刘慈欣

    2016.12.10

    【更多得到系列图书和订阅专栏分享微信:ghw1361,本书仅供

    学习,请勿他用】有句话叫作,你能看见多久的历史,就能看见多远的未来。让我

    们首先简单回顾一下互联网和人工智能之间的历史风云。

    大家对于互联网的历史多少已有耳闻。互联网于20世纪60年代诞

    生于美国军方的实验室,一开始用来在几所高校和科研机构之间传递

    和共享情报。到了20世纪80年代末,一群科学家提出万维网概念并创

    造了TCP\IP(互联网传输控制协议),赋予计算机联网通信的统一标

    准,使互联网得以向全世界扩展。至此,一条宽阔深远的信息高速公

    路展现在世人面前。

    大约20年前,23岁的年轻人马克·安德森发明了网景浏览器,就

    此点燃了大众互联网的熊熊火焰,打开了互联网商用的大门。那时,微软开始焦虑自身的软件业务会不会被互联网颠覆,太阳公司的年轻

    人则毅然与僵化的公司割裂,决定发明一种可以在各种操作系统上通

    用的语言,以此打破微软的垄断,闯开互联网创新之门,于是就有了

    Java(程序设计)语言的诞生。Java语言极大地加速了互联网产品的

    开发创造。

    当时的中国,在北京、上海也还找不到几家网吧,1997年,也就

    是香港回归的那一年,瀛海威刚刚开通全国网络接入服务,张小龙刚

    刚写出了Foxmail电邮软件程序,全国信息化工作会议也在那一年召

    开……从外面看万维网世界,一切都是刚苏醒的模样。但在技术圈,新技术、新思想层出不穷,各种商战明争暗斗正酣。

    那时我还在美国搜索引擎先驱Infoseek公司工作,在第一线感受

    互联网商战气氛,感受美国人对新科技浪潮的昂扬热情。当时我想,新技术革命正在发生,中国准备好了吗?我在1998年写出了《硅谷商

    战》一书,详细描绘了硅谷天才们的奋斗与创新过程。在写完这本书

    后,我于1999年回国,在北京一家宾馆的房间里创办了百度公司。

    回想网景、太阳、微软这三家公司在互联网领域类似三国争雄般

    的时代,至今依然激动不已。当时人们都在猜测谁是最后的赢家。微

    软看上去好像是不可战胜的,它总是能消化新技术。网景的发展则是

    起起伏伏,最终被美国在线收购,而美国在线也在2014年被以无线业

    务称雄的Verizon(威瑞森)公司收购。后来,Verizon还收购了叱咤

    风云多年的雅虎。太阳公司一度如日中天,2001年在全球拥有5万名

    雇员,市值超过2000亿美元。然而当互联网泡沫破碎时,太阳公司在

    一年内由峰顶跌入谷底,2009年被Oracle(甲骨文)公司收购。

    俱往矣,互联网的发展大大超出了当时大多数人的预料,新科技公司快速崛起,苹果、谷歌终于凭借手机操作系统完成了对微软的逆

    袭。而创造网景浏览器的马克·安德森——我在《硅谷商战》开篇就

    描摹的创新者,如今已没有多少90后知道他的名字。

    但马克·安德森并没有离开,他成了硅谷风投界的教父。互联网

    技术也依然继续高歌猛进。昔日人们关注互联网大咖明争暗斗,今日

    人们感慨移动互联设备全面超越PC,却一直无意中冷落了一个默默

    崛起的“幽灵”。这个“幽灵”就是人工智能,互联网只是它的身体之

    一。

    人工智能的黎明

    人工智能的历史早于互联网,与计算机历史相伴。1956年达特茅

    斯会议召开,人工智能被正式提上日程。那时候一台计算机的体积有

    一栋房子那么大,计算能力低下,为什么就有人敢于提出人工智能的

    概念?这就在于科学家的洞察力。当时,香农早已完成他的三大通信

    定律,为计算机和信息技术打下基础。明斯基已经造出第一台神经网

    络计算机(他和同伴用3000个真空管和一台B-24轰炸机上的自动指示

    装置来模拟40个神经元组成的网络),不久后写出了论文《神经网络

    和脑模型问题》。这篇论文在当时没有太受重视,日后却成为人工智

    能技术的鼻祖。而图灵则早在1950年就提出了如今人尽皆知的图灵测

    试理论以及机器学习、遗传算法、强化学习等多种概念。

    图灵去世两年后,在达特茅斯会议上,麦卡锡正式提出人工智能

    的概念。参与会议的十位年轻科学家在会议之后都成为世界各国人工

    智能领域的领军人物。人工智能短暂的春天开始了。不过当时他们的

    成绩更多被埋没在计算机发展成果之中,比如,可以解决闭合式微积

    分问题的程序,搭建积木的机械手等。

    理想超前但基础设施尚在襁褓中。超前的人工智能遇到两个难以

    克服的瓶颈:一个是算法逻辑自身的问题,也就是数学方法的发展还

    不够;另一个是硬件计算能力的不足。比如,机器翻译就是典型问

    题,科学家夜以继日地总结人类语法规则,设计计算机语言模型,机

    器却始终无法把翻译准确率提升到令人满意的程度。图1-1 达特茅斯会址

    注:使用手机百度或智能革命App扫描图片可见AR效果。

    新技术和产业链条没有被打通,令人兴奋的产品应用没有被发明

    出来,政府投资和商业投资都大幅度减少,人工智能研发在20世纪70

    年代中期到90年代经历了两次低潮,只是普通大众并没有感受到,毕

    竟高速发展的计算机本身就已经是很神奇的智能工具了。

    对于普通人来说,接触最多的“人工智能”实例大概就是街机游戏

    了,20世纪80年代在中国的一些小县城街头就已经出现了游戏厅。那

    些街机NPC(非玩家控制角色)总是能被熟练玩家轻松战胜,这不仅

    可以看作“人工智能”能力低下的表现,也造成了一种错误观念:智能

    是安装在一台计算机中的事物。直到互联网和云计算的兴起,这种观

    点才被改变。

    百炼成钢

    2012年,我注意到深度学习在学术界和应用方面都有了突破。比

    如,用深度学习的方法来识别图像,突然就比以前的任何算法都有明

    显提升。这个时候我马上意识到,新的时代来临了,搜索将被革新。

    过去我们用文字搜索,现在可以用语音和图像进行搜索。比如我看到

    一株不认识的植物,拍一张照片上传搜索,就可以立刻识别出来它叫

    福禄桐。过去用文字搜索是没法描述这样的植物的。不仅是搜索,很

    多过去不可能的事情现在都可能了。

    语音识别能力、图像识别能力、自然语言理解能力,包括为用户

    画像的能力,这些都是人的最本质的智慧能力。当计算机拥有了人的

    这些能力时,一场新的革命就会到来。以后速记员和同声传译人员可

    能会被机器代替,计算机可以做得更好。以后也许不需要司机了,车

    自己就可以开起来,更安全,更有效率。在企业里面,金牌客服可能

    人人都可以做了,因为有了智能客服助手。人工智能对人的这种赋

    能,超过了以往任何一个时代。工业革命解放了人的体力,过去一些

    像搬石头之类的粗活需要人类自己来干,现在机器可以替你把更巨大

    的石头搬起来。智能革命到来之后,原本很多需要费脑子的事情,机

    器也可以帮你做。未来20~50年,我们会不断看到各种各样的变化,收获各种各样的惊喜。这是一个很自然的过程。

    然而,站在智能革命开始的时点,有必要向那些人工智能科学的坚守者、开拓者致敬。

    在资本寒冬期,有少数科学家依然坚持人工智能领域的探索。如

    今百度拥有一支庞大且实力雄厚的人工智能研究团队,其中不少担纲

    者从20世纪90年代开始就在从事机器学习研究工作,或师从名师,或

    在大科技公司从业多年,今天的研发成绩只是水到渠成、顺势而为的

    结果。

    20世纪90年代只有Geoffrey Hinton(杰弗里·辛顿)、Michael

    Jordan(迈克尔·乔丹)等少数科学家坚持机器学习领域的探索。原百

    度首席科学家吴恩达在20世纪90年代就师从Jordan,后来他通过开创

    在线课程,把机器学习的理论传授给无数年轻人。现任百度研究院院

    长林元庆,百度杰出科学家以及世界上最早利用神经网络做语言模型

    的徐伟等人,十多年前就在深度学习的重镇NEC(日本电气股份有限

    公司)的美国实验室工作。在那里工作过的人工智能专家,有发明

    SVM(Support Vector Machine,支持向量机)的美国工程院院士

    Vladimir Vapnik(弗拉基米尔·瓦普尼克),有发明卷积神经网络的

    深度学习领军人物、现任脸书(Facebook)人工智能实验室主管的

    Yann Le Cun(扬·勒丘恩),还有深度学习随机梯度算法的核心人物

    Leon Buttou(利昂·布托),以及原百度深度学习实验室主任余凯

    等。

    他们中的很多人都经历了人工智能研究的数次潮起潮落。简单来

    说,最初的人工智能研究大多基于规则——人类总结各种规则输入计

    算机,而计算机自己并不会总结规则。比这个高级的方法是基于“统

    计”的机器学习技术,让计算机从大量数据和多种路径中寻找概率最

    大、最合适的模型。

    这两年促使人工智能再度技惊世人的技术,则是机器学习技术的

    升华版——基于多层计算机芯片神经网络的“深度学习”方法。通过多

    层芯片联结,模仿人脑大量神经元的网状联结方式,辅以精妙的奖惩

    算法设计和大数据,可以训练计算机自己从数据中高效地寻找模型和

    规律,从而开启了一个机器智能的新时代。

    正是少数人的坚持,为人工智能的王者归来保存了火种。在中

    国,百度是最早布局人工智能的公司之一,我们似乎是自然而然地做

    了很多其他公司当时还没听过的事情。六七年前,在美国,陆奇和我

    畅谈了深度学习的巨大进展。于是我们下定决心要大举进入这样一个

    领域。最终,在2013年1月,百度年会上我正式宣布了IDL(深度学

    习研究院)的成立,这应该是全球企业界第一家用深度学习来命名的

    研究院。我自任院长,不是因为我比其他人更懂深度学习,而是用我这块牌子,来展示对深度学习的高度重视,来召唤那些坚守多年的科

    学家一起奋斗。

    过去百度从不专门成立研究机构,我们的工程师就是研究人员,研究始终与实际应用结合得非常紧密,但是我认为,深度学习会在未

    来很多领域产生巨大影响,而那些领域并不都是百度现有业务范围之

    内的。所以,有必要创造一个专门的空间,把人才吸引进来,让他们

    能够自由发挥,去尝试各种各样的创新,在百度过去可能从来没有接

    触过的领域做研究,为全人类的人工智能革命探索道路。

    “智能”已换代

    如果人工智能的启蒙阶段可以称为1.0时代的话,那么现在很明

    显已经大步进入2.0时代了,机器翻译就是典型案例。过去的机器翻

    译方法就是基于词和语法规则进行翻译——人类不断地把语法规则总

    结出来告诉机器,但却怎么也赶不上人类语言尤其是语境的多变,所

    以机器翻译总是会出现诸如把“how old are you”翻译成“怎么老是

    你”的笑话。

    后来出现了SMT(统计机器翻译),基本思想是通过对大量的平

    行语料进行统计分析,找出常见的词汇组合规则,尽量避免奇怪的短

    语组合。SMT已经具有机器学习的基本功能,有训练及解码两个阶

    段:训练阶段就是通过数据统计让计算机构建统计翻译模型,进而使

    用此模型进行翻译;解码阶段就是利用所估计的参数和给定的优化目

    标,获取待翻译语句的最佳翻译结果。

    SMT研究在整个业界已经持续了二十多年,对于短语或者较短的

    句子,翻译效果显著,但是对于较长的句子翻译效果就一般了,尤其

    是对语言结构差异较大的语言,例如中文和英文。直到近几年

    NMT(基于神经网络的翻译)方法崛起。NMT的核心是一个拥有无

    数结点(神经元)的深度神经网络,一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表达形式,再经过多

    层复杂的传导运算,生成另一种语言的译文。

    但是应用这个模型的前提是数据量要大,否则这样的系统也是无

    用的。像百度和谷歌这样的搜索引擎,可以从互联网上发现和收集海

    量的人类翻译成果,把如此巨大的数据“喂给”NMT系统,NMT系统

    就可以训练和调试出比较准确的翻译机制,效果要好于SMT。中文和英文之间的双语语料信息储备越多,NMT的效果就越好。

    SMT以前用的都是局部信息,处理单位是句子切开以后的短语,最后解码时将几个短语的译文拼接在一起,并没有充分利用全局信

    息。NMT则利用了全局信息,首先将整个句子的信息进行编码(类

    似人在翻译时通读全句),然后才根据编码信息产生译文。这就是它

    的优势,也是其在流畅性上更胜一筹的原因。

    比如,翻译中有一个很重要部分是“语序调整”。中文会把所有的

    定语都放在中心词前面,英文则会把修饰中心词的介词短语放在后

    面,机器常混淆这个顺序。NMT在语序学习上的优势带来了它翻译

    的流畅性,尤其在长句翻译上有明显优势。

    传统的翻译方法也不是一无是处,每一种方法都有其擅长的地

    方。以成语翻译为例,很多时候有约定俗成的译文,不是直译而是意

    译,必须在语料库中有对应内容才能翻译出来。如今互联网用户的需

    求是多种多样的,翻译涉及口语、简历、新闻等诸多领域,一种方法

    很难满足所有的需求。因此百度一直把传统的方法如基于规则的、基

    于实例的、基于统计的方法与NMT结合起来向前推进研究。

    在这种机器翻译的模式中,人类要做的不是亲自寻找浩繁的语言

    规则,而是设定数学方法,调试参数,帮助计算机网络自己寻找规

    则。人类只要输入一种语言,就会输出另一种语言,不用考虑中间经

    过了怎样的处理,这就叫作端到端的翻译。这种方法听起来挺神奇,其实概率论里的贝叶斯方法、隐马尔科夫模型等都可以用来解决这个

    问题。

    以资讯分发当中的贝叶斯方法为例,可以构建一个用概率来描述

    的人格特征模型。比如男性读者模型的特征之一是在阅读新闻时》,让网友乐此不疲。这个榜单利用了百度知道和百度搜索的

    大数据,根据网友们多达7700万条关于“吃”的问答,总结出了各地不同的饮食习惯和特色。

    海量数据中被挖掘出了不少有趣的现象:“吃什么水果减肥最

    快”有多达30万人提问过,看来许多网友在吃的同时还不忘顾及身

    材;“昨天晚上还活着的螃蟹死了,还能吃吗?”这一问题有高达6万

    条回复,看得出中国“吃货”对于螃蟹的热情特别高。当然更多的还是

    诸如“××能吃吗”“××怎么吃”这类的日常问题,光是“菠菜和豆腐能不

    能一起吃”就引起了无数讨论。

    这些问题数量庞大并且看似混乱重复。但重复正是大数据的妙

    处。大数据可以从中捕捉到更深刻的含义。如福建、广东地区的网友

    经常会问某种虫是否可以吃的问题;而西北网友则对海鲜的吃法颇感

    疑惑。不同用户关心的食材、做法各不相同,百度大数据正是从中归

    纳出了各省市的“吃货”属性。在这背后大数据考量了网友的地理位

    置、提问回答的时间、问题中关于吃法或者做法等信息,甚至将网友

    使用的手机品牌等各种维度都纳入计算当中。

    除了对人类关注信息的描摹,大数据甚至在构造我们的身体。现

    在许多人都十分熟悉的健身腕带,就是通过收集我们日常运动作息的

    数据,例如,行走步数、卡路里消耗、睡眠时长等来分析我们的健康

    状况并提出建议。更进一步,未来我们可以将个人数据上传,通过大

    数据检测我们罹患各种疾病的可能性或者潜在威胁,更好地预防疾

    病。

    关于生活中的大数据有许多例子。我们现在用到的绝大部分成熟

    的互联网产品,无论是计算机还是智能手机,背后都或多或少有大数

    据的身影。当我们理所当然地使用这些服务时,就已经邀请大数据进

    入我们的生活。它默默注视着我们生活中的每一个细节,潜移默化地

    鼓励和劝告我们做出选择,强化了我们的角色。

    突破:机器学习与人工智能

    1950年,阿兰·图灵创造了一个针对机器的测试方法,即后来大

    名鼎鼎的“图灵测试”。这位充满传奇色彩的科学家认为,如果一台机

    器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身

    份,那么就可以认为这台机器具有智能。这一简化使图灵能够令人信

    服地说明“思考的机器”是可能的,而“图灵测试”直到现在也被当作判

    断人工智能的重要标准。这个标准已经暗示了一个新的路径,只要机器表现得像人类,我

    们可以不必过分关心机器的运作规则是什么。有人提出让机器自己来

    学习规则的办法,人类不用操心那些规则是什么。

    1949年,唐纳德·赫布基于神经心理学的学习机制,踏出了机器

    学习的第一步,创造了此后被称为赫布学习规则的方法。赫布认为神

    经网络的学习过程发生在神经元之间的突触部位,突触的联结强度随

    着突触前后神经元的活动而变化,正确的反馈会让两个神经元的联系

    得到强化。这个原理机制类似巴甫洛夫的条件反射实验:每次给狗喂

    食前都先响铃,时间一长,狗的神经系统就会将铃声和食物联系起

    来。赫布用一套加权公式来模仿人类的神经网,权重就代表神经元之

    间联系的强弱。赫布给机器创造了一套可以简单区分事物的方法,对

    于每个数据,让决策树程序做出判断,判断对了就奖励(提高函数的

    权重),判断错了就惩罚(降低函数的权重)。他利用这个方法创造

    了一个分类器,可以提取数据集的统计特性,把输入信息按照它们的

    相似程度划分为若干类。看上去如同人类在观察某种现象时,会观察

    和总结并区分事物,但机器的这种“观察”更接近一种通过训练达成的

    条件反射,并非如人类那样思考,重视的是数据中蕴含的相关性关

    系,而非人类思维中的因果性关系。

    之后的十几年中,关于人工智能的研究愈发热烈,灵感一个接一

    个地涌出。1952年,IBM科学家亚瑟·塞缪尔成功开发了一个可以下

    得越来越好的跳棋程序。他创造了“机器学习”的概念,并将它定义

    为“可以提供计算机能力而无需显式编程的研究领域”。

    1957年,Rosenblatt(罗森布拉特)提出了感知机的概念,成为

    日后发展神经网络和支持向量机(Support Vector Machine,SVM)的

    基础。感知机就是一种用算法构造的“分类器”,是一种线性分类模

    型,原理就是通过不断地训练试错以期寻找一个合适的超平面把数据

    分开(超平面可以这样理解:三维坐标空间里二维的形状称作平面,能划分三维空间。如果数据是多维的,那么N维坐标空间里,N-1维

    就是超平面,能划分N维空间)。如同你把写着“正确”和“错误”的两

    堆球输入进去,感知机可以为你找出这两堆不同球的分界线。

    感知机好比在输入和输出之间只有一层的神经网络。当面对复杂

    一点的情况时就力不从心了,比如当“正确”和“错误”的球互相混合的

    时候,或者又有第三种球出现的时候,感知机就无法找到那个分类的

    界线。这使感知机很难在一些即使看似简单的问题上有所突破。

    如今,不需要人类输入规则(编程),而是让机器自己寻找规

    则,这样看上去机器就有了自己的智能。今天的人工智能便是在机器学习的基础上发展起来的,只是成长速度受到硬件和方法的限制。

    如果多台电脑、多个芯片联网进行机器学习,而且具备多个芯片

    网络层次,就进入了所谓的“深度学习”的范畴。在20世纪70年代末,Geoffrey Hinton教授等人已经发现,如果能实现多层的神经网络,就

    可以逐层递进找到模式中的模式,让计算机自己解决复杂的问题。那

    时他们就开发了“反向传播”算法神经网络。但是多层神经网络的复杂

    性也导致对其训练的难度大大增加,数据不足和硬件计算能力成为掣

    肘。

    从20世纪60年代中期到20世纪70年代末,机器学习的发展步伐几

    乎处于停滞状态。这种情况一直到20世纪80年代才有所好转。随着计

    算机性能的突飞猛进和互联网的到来,人工智能研究终于如虎添翼,在20世纪90年代,现代机器学习初步成形。

    互联网在20世纪90年代投入商用,使分布式计算方法获得长足发

    展。超级计算机造价昂贵,而分布式计算技术则发挥了“人多力量

    大”的优势,让多台普通计算机可以协同工作,各自承担计算任务的

    一部分,并把计算结果汇总,效率可以超过超级计算机,而且分布式

    的结构正好适应了日渐增多的数据量。

    计算机神经网络生长与深度学习

    由于传统人工智能一味依赖科学家输入的规则模型,导致它只有

    在解决一些规则比较清楚的问题时才比较有效,比如击败卡斯帕罗夫

    的“深蓝”就是这样一种“人工智能”。当面对识别一张图片这类人类在

    婴儿阶段就能学会的简单问题时,这类人工智能却无计可施,因为这

    种认知类问题只有一个模糊的概念,没有清楚简单的规则。而计算机

    神经网络的特点就是它不需要人类提前告知规则,它会自己从海量的

    基础数据里识别模式(规则)。

    顾名思义,神经网络类似人类大脑,由一个个神经元组成,每个

    神经元和多个其他神经元连接,形成网状。单个神经元只会解决最简

    单的问题,但是组合成一个分层的整体,就可以解决复杂问题。

    Geoffrey Hinton认为,传统的机器学习方法只利用了一层芯片网

    络,在遇到真正复杂的问题时,处理效率就会变得十分低下。深度学

    习的最核心理念是通过增加神经网络的层数来提升效率,将复杂的输入数据逐层抽象和简化。也就是说,将复杂的问题分段解决,每一层

    神经网络就解决每一层的问题,这一层的结果交给下一层去进行进一

    步处理。

    有一层神经网络,就可以找到简单的模式;有多层神经网络,就

    可以找出模式中的模式。以人脸识别为例,神经网络的第一层只专注

    于边长几十个像素之类的图像区域,从中识别出一些形状(形状就是

    模式)——眼睛、鼻子、嘴巴等。再把这些已经识别出的形状交给下

    一层神经网络,下一层网络在已有的识别结果里,又发现了更大的模

    式——眼睛、鼻子、嘴巴可以组合成人脸。如果描述得更数学一点,当下流行的深度神经网络可分为应对具有空间性分布数据的

    CNN(卷积神经网络)和应对具有时间性分布数据的RNN(递归神

    经网络,又称循环神经网络)。

    CNN往往用于图像识别,正如上文描述的,网络的第一层被训

    练成可以完成这样一个“小目标”——识别图像中局部的独立模块,如

    一个方块、一个三角形,或者一个眼睛。在这一层,人类输入大量图

    片数据,只为让该层神经可以辨别基本的局部图形“边缘”,即一个像

    素旁边没有任何东西。接下来的每一层都在前一层得出的信息中寻找

    更高层次的模式。这种方法模拟了人眼组合信息的方式,丢弃次要细

    节,优先识别出某种显著模式。如几个小块和一个圆圈合在一起成为

    一张脸,不论它出现在图像中的什么位置,人眼会首先注意这张脸,而不是平均注意图像的所有部分。

    RNN则往往用于语音识别和自然语言处理。因为语音和语言是

    一种按照时间分布的数据,下一句的意义和上一句有关。RNN网络

    可以记住历史信息。假设我们需要开发一个语言模型,用 ......

您现在查看是摘要介绍页, 详见PDF附件(9452KB,288页)