跳转到主要内容

Style Options

Layout Style

Colors schema

方向

电话 : (86-532) 8868 - 5316 QQ : 9995 - 9133
人工智能

 Mr. L

“很难说是你的程序有bug,还是你的方法管用了。”深度学习究竟是个bug,还是个通向未来有效的方法呢?在机器人大赛中,深度学习用打遍天下难遇敌手的战绩,证明了自己就是那个行之有效的方法。未来,也许是深度学习的世界。

  Mr. L

http://img.mp.itc.cn/upload/20170318/6304db8fa60246e08ecf343231335eeb_th.jpeg

(封面和题图来源:Pixar Wiki - Wikia

它是科幻电影里喜闻乐见的角色,也曾经因为打败了国际象棋大师而登上新闻头条。在未来学家的眼里,它将主导下一次工业革命,带来无尽的生产力,但同时也带来大量的失业;它会导致道德法律的难题,更甚至有统治人类的风险。它曾经很神秘、很遥远,却在近几年突然成为了媒体的新宠、科技圈热议的话题。那么,它的现状究竟如何?未来将会如何发展?这一次,我们就来给大家解读人工智能行业。

我们的人工智能行业介绍将分为上下两篇,分别在316日与323日先后刊出。本篇为报告的上篇。在本篇中,我们首先为大家介绍人工智能的主要研究领域在学术界的发展现状,剖析这一波人工智能浪潮的成因。然后我们会为大家简要回顾人工智能的发展历史,从而将当前人工智能的发展置于一个连贯的历史背景中。

  引子:“一个有趣的bug(程序错误)”

美国内华达州雷诺市的经济以赌博、酒店和旅游业为主。201212月初,这里的Harrah's 酒店客房显得格外紧俏。这座豪华酒店吸引了一千多位从世界各地远道而来的客人,参加一年一度的机器学习盛会——NIPS,而客房楼下的赌场却显得十分冷清。据说这些客人相信概率而不相信手气,这惹恼了原本希望捞上一笔的赌场老板。

http://img.mp.itc.cn/upload/20170318/0365802ddb2949d5b0d29a74da29a45a.jpeg

随着人工智能的兴起,NIPS的参会人数也经历了指数式增长,从2012年的一千多人激增至2016年的近六千人。(来源:http://nips.cc/Conferences/2012/

赌场楼上的会议大厅里座无虚席,一位瘦小的老人刚刚完成报告,正在接受一位听众的提问。“我时常和我的学生开玩笑说,‘很难讲究竟是你的程序有bug,还是你的方法管用’,”提问者用带有几分怀疑和挑战的语气说,“现在你往你的程序里加入了一个有趣的bug,你能证明这个方法管用吗?”

全场哄堂大笑。提问的是Thomas Dietterich,机器学习界的元老级人物,本次大会的主题报告演讲者。笑声渐渐平息,老人神情笃定地用一口伦敦腔回应:“我认为,证明的办法就是不断地赢得机器学习的比赛。这也是一种‘收敛定理’——如果你不断地赢得比赛,凭运气赢的概率就越来越小了。”

老人的名字叫做Geoffery Hinton,他刚刚在报告中首次介绍了Dropout:一种防止神经网络过拟合的方法。在2012年,他的学生们使用基于深度学习[1]的方法,刚刚获得了图像识别、语音识别和生物医药预测等三项比赛的第一——这样的事哪怕放在仅仅一年之前,也不会有人相信。然而在接下来的四年里,基于深度学习的方法几乎赢得了学术界所有主要的机器学习比赛,把之前十余年的流行方法们远远抛在身后。正如老人所言,人们对于它是否管用的判断很快就“收敛”了。

http://img.mp.itc.cn/upload/20170318/a37d4a0ca73f439592317e5045bb8c98_th.jpeg

Geoffery Hinton带领他的学生们为深度学习的早期发展做出了重要的贡献,被誉为“深度学习教父”。(来源:https://goo.gl/bJ6rmU

根据Google Scholar的统计[2],发表于2014年介绍Dropout的期刊文章,在本文写作时刚好获得了2^11=2048个引用。按照著名的Nature(《自然》)杂志上论文的平均被引用量计算,这篇论文的热度大约相当于20Nature论文。如果你为此感到惊讶的话,你需要了解2012NIPS会议上另一篇由Hinton和学生合作的论文——Google Scholar统计这篇论文至今引用量超过了10000次,平均每年超过2000次引用,或热度超过50Nature论文之和。

也许我们可以不过分地说,深度学习是过去五年学术圈最火热的方向,没有之一。

  1.现状

“未来是深度学习的!”两位从业界实习归来的博士生都这样对我说。暑假里,他们分别在谷歌DeepMind和微软研究院参与了深度学习的科研项目。而在学校里,他们的机器学习科研项目并没有深度学习这样热门。

http://img.mp.itc.cn/upload/20170318/1b1de9d44cc54729a0868b4b30094adc.png

DeepMind在深度学习研究机构中位于领先位置,完成了包括AlphaGo在内的许多富有创新性的科研成果,于2014年被谷歌收购。(来源:https://deepmind.com

虽然人工智能在近两三年确实有过热的迹象,但深度学习能够掀起这一轮人工智能热,却并非是炒作和盲目跟风的结果。实际上,深度学习使得人工智能的许多领域发生了深刻的变革。引用Thomas Kuhn在《科学革命的结构》一书中提出的概念,这些变革无异于一次“范式转移”。具体说来,在最近五年,人工智能领域迎来了以下这些变革。

各项任务成绩一路飙升。其中最为引人注目的,当属在计算机视觉领域物体识别任务中取得的辉煌成绩。2010年以前,计算机程序通常只能学习从图片中区分出数十种物体。例如2007年至2011年物体识别的主要赛事“PASCAL VOC挑战赛”,要求参赛队伍根据提供的近万张有标注图片设计算法,从20类常见物体中识别出测试图片里包含的物体类别。历经多年尝试,这项比赛的冠军算法也仅仅能获得60%-80%的正确率。2010年起,在斯坦福大学教授Fei-Fei Li的组织下,一项称为“ImageNet大规模视觉识别挑战赛(ILSVRC)”的新比赛改变了这一格局。

该项赛事为参赛者提供约千万张有标注图片,含有共1000个类别的物体,数据量大小足够塞满当年的移动硬盘。比赛关于物体识别的项目,需要参赛算法对每个物体从1000个类别中选出5个最可能的答案,若正确答案被包含其中,则视为识别正确。相比之前的比赛,这一比赛在识别任务方面大幅提升了难度,但另一方面提供了多得多的训练数据。

2012年,未使用深度学习的方法所达到的最小错误率为26%,而NIPS那篇被引用上万次的论文所描述的方法实现了16.4%的错误率。从2013年起,几乎所有的参赛队伍都选择了深度学习方法。历年冠军算法的错误率大幅下降至11.7%2013Clarifai),6.7%2014Google),3.6%2015,微软亚洲研究院)。值得指出的是,2016年的冠军由我国公安部第三研究院获得,算法错误率已低于3%。这意味着目前深度学习算法对于熟悉物体的识别能力已经达到或超过普通人类的水平,同时也意味着“使用计算机进行一般物体识别”从学术研究到社会应用的时机已趋于成熟。

http://img.mp.itc.cn/upload/20170318/06c8108e722a4d95b8c159a1b41278a9.jpeg

实线为ImageNet物体识别比赛冠军队伍的Top 5错误率,虚线为推测的在同一数据集上人类的识别错误率[3]。(来源:本文作者)

除此以外,物体检测、场景识别、动作识别等传统的计算机视觉任务也借助深度学习取得了迅速的进展。仅仅十年时间,自动驾驶技术也从2007年的DARPA Urban Challenge实验,发展到如今的商用无人驾驶汽车挂牌路测。其中,根据谷歌旗下Waymo公司公布的数据, 2016Waymo开发的无人车在美国加州公路上共行驶100万公里,仅被人工干预124次,即平均每8000公里只需要一次人工干预。

http://img.mp.itc.cn/upload/20170318/e4ab8d5c5cdb4cb294cbb13491ba01a2_th.jpeg

Waymo的无人驾驶车在美国加州路测。(来源:https://waymo.com/press/

由大规模数据集和深度学习所引发的革命也带来了语音识别、机器翻译等其他任务成绩的迅速提升。例如由百度所开发的语音识别系统Deep Speech 2在较为简单的语音识别任务中成绩已达到或超过普通人类水平,由谷歌所开发的神经机器翻译(NMT)系统的翻译质量也已经接近人类水平。基于这些进展,人工智能已可以在一些低难度低精度要求的场景中得到应用。

大数据集、并行计算和开源项目的推广。如果说人工智能近几年搭上了深度学习的火箭,那么大数据集、GPU引领的并行计算和GitHub上的开源项目就是这枚火箭的燃料和助推剂。

十年以前,机器学习关注的最重要问题是如何在小数据集上获得尽可能好的表现,这主要是因为缺少大规模的带有正确标注的数据集。为此,人们通常十分关注模型的统计学性质,或者巧妙地加入先验知识,以防止严重的过拟合。然而,采用这种思路对算法效果的提升较为有限,而要加入更多的先验知识,在知识表示和软件工程方面都存在着诸多障碍。另一方面,扩充数据集对算法成绩带来的提高显而易见,而亚马逊Mechanical Turk众包平台的推广,显著降低了标注大规模数据集的成本。ImageNet等大规模标准数据集的开放,使得传统的模型(例如支持向量机SVM)由过拟合变成了欠拟合,人们转而寻找更加复杂的模型来充分利用数据集的信息。

http://img.mp.itc.cn/upload/20170318/74326022de13410485fb41790d80dc6a.jpeg

亚马逊的Mechanical Turk为人工智能的发展发挥了不可替代的作用。(来源:https://www.mturk.com/

随着模型复杂度(即所需存储空间)和数据量的增加,训练模型所需的时间也增加了。一些曾经风靡一时的传统方法,例如核方法、某些概率图模型等等,由于训练和(或)预测所需的时间复杂度较高,实际的训练时间随模型复杂度增长很快。与之相反,基于神经网络的方法的训练时间与模型复杂度和数据量都是线性关系,因此更适合于复杂模型加大数据的场景。即使如此,训练大规模神经网络也依旧需要极大的计算量。如果这些计算都由单核CPU完成,训练一个在ImageNet上表现良好的模型将需要几周到几个月的时间。而并行和分布式计算技术的应用,特别是GPU所实现的矩阵运算的大规模并行,将漫长的训练时间缩短了数十至数百倍,大大提高了对模型设计进行迭代式优化的效率,对深度学习的研究进展起到了至关重要的加速作用。

http://img.mp.itc.cn/upload/20170318/983d154993384f74857b91f864c42ea2_th.jpeg

Nvidia为台式电脑提供的高端GPU Titan XGPU在近年成为深度学习实验研究不可或缺的工具,Nvidia作为GPU的最大生产商,也因此成为2016年美国股市最受追捧的股票。(来源:NVIDIA Blog

五年前,深度学习作为神经网络的“再包装(re-branding)”,被认为是少数大学实验室的教授和博士们才玩得好的神秘技术。的确,当时的神经网络算法需要人工选择许多参数和推导计算公式,还有许多在模型设计和数据预处理方面少为人知的细节,任何一项操作不慎,都有可能无法获得理想的结果。目前被应用最广的卷积神经网络(CNN)就曾经被戏称“黑魔法”,“只有在Yann LeCun实验室周围100平方英尺以内才能训练出那么高的正确率”。然而,近五年如雨后春笋般出现的开源深度学习平台、样例代码、机器学习博客和社区,让实验的重复和模型的修改变得相对简单,甚至许多对这一领域跃跃欲试的普通程序员也可以站在前人的肩膀上,实现自己的深度学习项目。

http://img.mp.itc.cn/upload/20170318/28fcad10a680421eae6e2d3670ebee05.jpeg

目前GitHub上主要的开源深度学习平台。从左至右分别为谷歌使用的TensorflowFacebook使用的Torch7以及亚马逊使用的MXNet。(来源:GitHub

在特征提取方面,机器打败了100%的人类。所谓特征(features),就是输入给机器学习算法的、经过预处理的数据表示。在应用机器学习算法的传统流程中,提取好的特征是取得好的算法表现的重要前提,其重要性甚至超过了学习算法的选择。正因为如此,在深度学习以前,效果最好的物体识别和语音识别算法必须使用由领域专家精心设计的图像和语音特征。其中一些成功的设计,比如从原始图像中提取特征的“尺度不变特征变换(SIFT)”和“有向梯度直方图(HOG)”,在当时具有巨大的影响力。这主要是因为传统的机器学习算法无法学习这些变换,而且当时的数据规模太小,神经网络也无法学到更好的特征。现在我们知道,在大数据集上,以深度卷积神经网络为代表的深度学习可以直接以原始的图片像素或声音波形为输入,取得比传统机器学习流程更高的正确率,并且在网络内部不同的层级上形成很好的特征表示。这就意味着,当一个神经网络在某个大数据集(例如ImageNet)上训练成功,它的主要部分还可以被作为特征提取算法用在相似的小数据集上,并且效果还要好于之前人类专家花费数十年构造出的特征提取算法。

深度学习特征提取的成功并没有止于图像和声音数据。一些研究者想到,对于难以使用机器学习算法直接处理的数据类型,比如词语、句子和其他结构化的数据,只要能够表示成向量(这一过程称为嵌入,或embedding),就同样可以尝试利用深度学习获得好的特征表示。比如,使用“word2vec”嵌入和“长短时记忆(LSTM)”模型在大量的英语文本上训练后,可以发现表示词语向量的相对位置关系包含了丰富的语义信息,例如“kingman + woman queen”,可供进一步挖掘和验证。

模型解放运动。由于大数据集的出现和神经网络的成功,人们在使用复杂模型训练时不再过于担心过拟合问题。另一方面,成熟的自动微分(automatic differentiation)技术免去了推导参数更新公式的麻烦,改良的随机梯度下降(SGD)算法和其他稳定和加速参数优化过程的方法,在减少参数调节难度的同时也节省了时间。人们因而得以逐渐放开思路探索新的模型设计。

在物体识别方面,以AlexNetVGGInceptionResNet为代表,几乎每年都会出现全新的模型设计元素,将识别正确率推向新的高度。新的模型也伴随着新的深度学习应用出现,例如为图像生成一句话描述、由文本直接合成语音、为图片添加画家艺术风格、玩Atari 2600游戏、下围棋等等,都催生出相应的神经网络模型。

在这一次模型解放运动中还产生出一些十分大胆前卫的模型,例如带有注意机制的神经网络、神经图灵机、神经程序员—解释员、生成式对抗网络等等。这些模型所包含的设计灵感,有望为解决长期困扰机器学习模型设计的许多问题带来启发,或将在人类制造更高级的人工智能的道路上扮演重要角色。

2. 历史

“十年河东,十年河西。”用这一句成语来概括人工智能主“流”在过去数十年的演变是十分恰当的。目前为止,还没有哪一类方法能够成为主流十几年而不被新的方法取代——这也恰恰说明了人工智能研究的快速发展。深度学习未来会不会打破这一规律,还是也会在十年之内被其他方法超越呢?这个问题超出了本文作者的知识范围,我们只能假装没有听见。然而我们可以确定的是,替代深度学习的方法目前似乎还没有出现。

让我们来回顾一下人工智能学科曾经的风起云涌。必须指出的是,每个年代都有属于自己的辉煌,然而随着学科发展,绝大多数成果都湮没在历史尘埃里,不为今人知晓。因此我们去粗存精的概括也就难免以偏盖全。

史前神经网络。实际上,人类早期的人工智能实践就试图模仿神经网络的功能,这一阶段的研究者多为神经科学家。Warren McCullochWalter Pitts早在1943年就提出了关于神经元的计算模型。Frank Rosenblatt1960年前后设计并实现了感知机(Perceptron)和它的训练算法,这是人类创造的第一个可以学习的计算机程序。在50年代末,一项来自神经科学的发现对于此后的计算机视觉研究产生了巨大的影响:David HuberTorsten Wiesel研究了猫的大脑初级视觉皮层细胞的输入输出性质,发现了神经元细胞的感受野(receptive field)和滤波特性,两人也因这一发现获得了1981年的诺贝尔生理学或医学奖。在卷积神经网络(CNN)里可以看到这一发现的深刻影响。70年代,英年早逝的神经科学家David Marr研究视觉的计算问题,提出了一系列先驱性的思想和计算模型,其关于“分析信息处理系统的层次”的经典论述至今仍然是人们认识生物智能的纲领。同样在70年代,由于学界对Marvin MinskySeymour Papert两位大佬关于感知机的评价不幸产生误解,神经网络研究渐入低潮期。

逻辑与符号主义。另一方面,数学家、逻辑学家和计算机科学家则更倾向于从符号计算的角度去解释和实现智能。这一流派认为,人类解决问题和进行决策的本质是对代表概念的符号所进行的基于规则的运算。Allen NewellHerbert A. Simon是符号主义人工智能的先驱,他俩因为对人工智能和认知心理学的贡献获得了1975年的图灵奖[4]。这个流派的人工智能对问题解决、推理、国际象棋乃至数学定理的证明进行建模,认为实现智能的关键是解决搜索问题,对启发式搜索方法作出了重要的贡献。无论是打败卡斯帕罗夫的IBM深蓝,还是打败李世石的谷歌AlphaGo,都应用了这个理论基础。而在增强学习(reinforcement learning)和机器人学领域,基于逻辑和符号的人工智能目前也依然大有用武之地。符号主义在80年代的化身是专家系统,这种系统可以根据领域专家所设计的规则进行推理,在医疗诊断、故障检查、芯片设计等许多方面都有应用,据称曾经风行于众多500强企业。为解决这类系统不能从数据中学习、不适于处理不确定关系的问题,关于概率推理的研究发展起来,近代人工智能的模型开始萌芽。

神经网络的中兴。由于学界认识到对神经网络学习能力的误解,以及训练神经网络的后向传播(back-propagation)的发明,人们又燃起了研究神经网络的兴趣。这一部分最重要的工作当属由James L. McClellandDavid E. Rumelhart 等人编著的“并行分布式处理(PDP)”系列书籍的出版。这一系列的研究为不同的认知和学习任务建立了神经网络模型,探索了包括递归神经网络(RNN)在内的多种模型的性质。然而由于计算能力和数据集大小所限,当时的实验在今天看来只能算是小孩子过家家,多数研究停留在概念验证阶段。80年代后期至90年代,人们在神经网络的应用中常常遇到模型设计、参数初始化、学习率选择、过拟合等需要经验或者“运气”的问题,对结果的稳定性造成很大影响。学界研究和应用领域的兴趣开始转向更加值得信赖的方法,并且普遍认为神经网络缺乏良好的理论保证。神经网络又一次成为了人工智能的边缘领域。在90年代末,Michael I. Jordan转为研究基于统计和优化的机器学习,Geoffery HintonJoshua BengioYann LeCun选择了孤独的坚守;当时的人们不会想到,他们都有着光明的前途。

近代人工智能。概率、统计和优化是近代人工智能的三大基石。其中概率模型的研究始于改进专家系统的努力。在概率模型方面,Judea Pearl对贝叶斯网络、概率推理和因果推断作出了重要的奠基性贡献,他因此获得了2011年的图灵奖。人工智能的这一分支发展为概率图模型领域。概率图模型作为一种研究范式,不仅为包括卡尔曼滤波、Logistic回归在内的众多经典模型提供了统一的描述语言和推理算法,还催生了相当丰富的新模型和新的应用场景。

关于机器学习的研究始于Leslie Valiant对布尔函数可学习性的探索。他创造性地定义了“大概率地近似正确(PAC)”的概念,奠定了机器学习的理论基础,并因此获得了2010年的图灵奖。此外他也是boosting方法的早期探索者。前苏联统计学家Vladimir Vapnik是影响机器学习的另一重要人物,他在60年代至90年代的一系列统计学理论工作,特别是关于VC维复杂度与机器学习算法的泛化错误率之间的关系,是人们理解过拟合问题以及机器学习算法在测试集上表现的开端。他也是支持向量机(SVM)算法的发明人。其他重要的模型和算法还包括Bradley Efron的自提升算法(bootstrap)、Yoav FreundRobert Schapire提出的AdaBoostadaptive boosting)、Leo Breiman研究的决策树(decision tree)和随机森林(random forest)算法。从这一时期开始,越来越多的统计学家加入到人工智能的研究中。特别值得一提的是,结合了AdaBoost和决策树模型以及随机梯度下降优化算法的梯度提升树(gradient boosting tree)算法,在许多数据集较小的实际问题上能够获得目前的最佳结果。

进入21世纪,在数据量增大、计算能力增强的大背景下,基于概率和统计的机器学习完全占据了人工智能研究的主流,推动概率推理、统计学和优化方法迅速发展。核方法(kernel methods)、压缩感知(compressive sensing)、贝叶斯模型(Bayesian models)等等方向都成为了21世纪前十年的研究热点。在其他领域如计算机视觉、语音识别和自然语言处理方向,主流的研究方法将对问题的理解作为先验知识编码到模型设计中,再利用统计机器学习的方法训练模型参数。然而风水轮转,随着深度学习的兴起,曾经风光无限的近代人工智能研究也难逃日渐式微的命运。

[1] 深度学习本质上就是神经网络。采用“深度学习”这一名称,一方面意在强调网络深度对于学习结果的正面作用,另一方面也是一种新瓶装旧酒的营销手段。

[2] 因为Google Scholar的引用统计了包括arXiv预印本文献在内的许多引用来源,而关于Nature的引用仅统计了来自SCI期刊的引文,这种比较显然有失公允。然而我们相信这一误差并不影响本质结论。

[3] 人类识别错误率的数据来自Andrej Karpathy的博客。http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/

[4] 图灵奖为纪念计算机科学和人工智能的先驱Alan Turing设立,由计算机协会(ACM)每年颁发一次,奖励为计算机科学发展作出重大贡献的个人,是计算机科学的最高奖项。

 

TAGS

Copyright © 2013~2021 TopLink.cc    备案号:鲁ICP备17013236号