四月初,2017中国(深圳)IT领袖峰会在深圳举行,中国互联网众多企业参与,其中腾讯公司董事会主席兼首席执行官马化腾参与“人工智能:中国机遇与挑战”的话题讨论,从中我们可以看到一些腾讯关于人工智能的研究方向。
去年三月,谷歌旗下DeepMind研发的AlphoGO通过围棋人机大战一战成名,带动“人工智能”概念的火爆。一年之后,腾讯AI Lab研发的人工智能围棋程序“绝艺”也通过人机大战引起外界对腾讯人工智能方面的关注。
同时,主持人也介绍了腾讯有个700多人专门研究人工智能的团队,在问及腾讯为什么这么重视人工智能时,马化腾说:
其实李彦宏是人工智能走得更前了,对腾讯来说我们还是落后不少。只是去年刚开始成立的部门。当然在我们所有BG内部结合它的业务形态,像我们微信里面,超过上百亿条消息,包括我们图片、特别是做社交网络,里面有人脸数据图片绝对是天文数字,每天高达上十亿张有人脸照片。这方面的技术研究在各个BG有相当长时间研究。包括后台数据分析、广告匹配都用了人工智能技术,只是大家感受不到。因为他在后端。我们在前端也希望做出一些产品,刚好一年前Alpha Go它的paper出来,通过人机对战让全世界对人工智能认知到了一个新的高潮。我们团队本着练兵的心态也做了尝试。
谷歌收购了deepmind团队发表的论文,原来做计算机围棋的团队都纷纷采用深度学习方法来融入原有的似乎已经走进瓶颈的计算机围棋软件开发中,大家不约而同在这一年中起步。我们内部团队有三个团队也在做,只是分在不同部门。这个部门刚好是它能够突破这个瓶颈,也动用了公司相当的大的后端的计算机资源,更大的特点是它和Alpha Go不同的是我们的决议AI的成长,全程得到了国家级围棋世界冠军从一开始的陪练,然后找出它为什么不同。我们十几位研发人员不懂围棋的,一开始连黑先下还是白先下的规则都不懂,我们从计算机原理、工程实现以及结合中国包括很多的专家来去训练,这里面给我们最深刻的理解就是,我们觉得这算是小小的成功吧,但是也不能过于欣喜,毕竟是站在前人肩膀上,因为你没有发布这个paper,我们也不可能做出来。但是也不能说这是毫无疑义的事情,这里面给我们最大的思考。过去我们对AI很多是从一些规则、从简单的训练得出来的能够改善我们计算处理的这样一种能力,最终我们发现其实还有一个更恐怖、更深层的意义在于他能够在计算机的后台能够用云计算、大数据方式能够高速的自学习,能够自己跟自己对奕。所以AlphaGo出来后,它的下一代master,经历了数十亿盘自我对弈,已经超越过去所有人类交战的盘数,然后它自己寻找规律,找到的已经远远超过人类过去在围棋领域认知的范围,是极大的扩展,这是给我们一个很大的启示。
在很多的领域——围棋以外的领域,不管是医疗(刚才讲的病理的检测),以后的金融,现实中的每个行业,如果能用计算机后台做出一个模拟器,能够让它充分尝试,就像开车一样,你可能不用教自动驾驶怎么开车,就模拟一个现实环境,给它一个规则,让它驾驶,它去撞,有各种反馈,自然会琢磨出一套理论和经验,这是给我们带来巨大思考。在很多领域如果能做出模拟器,定义出很多参数,自己学习,他能找到规律可能远超我们现在想象的。这是我们最大的启示。
而涉及人工智能的拟人化,马化腾觉得仍旧是个全新的领域:
我们当然期待有一个本质的,发现飞机的螺旋桨也好,还是流体动力学,还是鸟的翼,或者是马跑,现阶段还是通过仿生的阶段,在某一些垂直的领域,你现在要做到一个通用的AI非常难,包括围棋也是选一个非常窄的领域,然后给它学习,通过各种参数来训练,刚才郭为提到的用AlphaGo下一盘棋要消耗多少能源。这个垂直领域训练数据是需要消耗很大的能量,但在实际用的时候其实不需要消耗太大的能量。我们绝艺训练出来的单机成本跟职业棋手差不多,但是要训练出这个模型来要很长时间,稍微改一改规则就全部要进行重复训练,改进一点之前的积累都不算,要从头积累一遍,消耗的能量很大,而且时间很长,这是很窄的一个技能模拟。下一步到通用的,再下一步是不是有更本质性的,发现它背后的原理,智能可以超越人的碳基的智慧,是不是有其他更多的基础元素可以形成更高级的生命智慧呢?这可能是超越人类现在所发现的知识,这也是有可能的。甚至有人还突发奇想说我们现在认识的宇宙就是高智能的生命,用他的量子计算机模拟出来的环境,我们一切都是模拟出来的,也有可能。大家发挥脑洞大开的想象力吧。
对于拥有微信和QQ的腾讯来说,已经构成世界上最大的社交网络,里面大量的数据可以算作人工智能非常重要的方面,现场马化腾也分享了一部分腾讯的数据:
首先看人工智能我们关注那几块,第一个是场景。第二个是大数据。场景就是你想把这个技术应用在什么场景下,你是不是有高频的跟用户接触,这是一个落地的很重要的地方。所以我们看到很多研究院也好,包括我们内部研发团队。如果没有场景落地,没有平台支持,基本上就是空中楼阁,研究一半很难往下走。第二个是大数据,大数据也是从平台、业务部门有大量实际运转数据才能产生出来。但是这里面很多大数据是垃圾数据,因为没有标签,每人做规划定义,用多好的算法也学不出来,学出来也是走火入魔,没有用的。数据清洗、标签化难度非常高,我们甚至要雇佣很多人用人手的办法,先用人脑清洗干净,再让AI学习。这里面是一个混合结合的过程。第三,计算能力,也就是你有云的资源,拿几十万核的计算能力,CPU、GPU,我们还是有这个能力的。而且在云里面本身就可以很好的调用,这是我们第三个优势。第四个,一年前我们比较缺乏的就是人才。通过一年我们也招了挺多的人,我们在微软、在西雅图还设置了一个实验室。因为很多微软的人不愿意离开西雅图,所以我们就在旁边设,没有办法,人才就是这样。几个方面结合起来才有办法真正在某一个领域看到它的成效。
我们现在观察到很多的AI所谓的大拿们,他们更关注怎么落地,能不能把毕生研究成果能够体现出来,所以在我们内部在吸引人才的时候,往往也会说你们微信、手机QQ里面的平台数据能不能给他们用,但是事实上大家都知道,BG、部门里面的平台他们也很希望近水楼台先得月,数据就在我身边流动,我为什么不能招人先研究一把,为什么给你呢。我们现在还处在内部怎么把数据分享出来这个阶段。当然这里面还有一个用户很关注的个人隐私,别把我的数据都卖了,到时候大家都知道,这里面还有一个很复杂的信息安全个人隐私脱敏,你是不知道无法根据数据倒推到哪一个人做了什么事情,我们要把这些处理干净才能往下一步谈。这里面数据清理到什么标签,才能给其他部门、包括外部合作伙伴怎么用。同时有很多数据来自合作伙伴,业界其他公司,他们也遇到这样的问题那者一堆裸数据不怎么用,这样业界还要有一个标准,互惠互利交换,这是一个大方向,还有很长的路要走。
本次IT领袖峰会的“人工智能:中国机遇与挑战”中,马化腾认为AI不仅仅是过去理解的从一些规则、从简单的训练得出来的能够改善我们计算处理的这样一种能力,而是在计算机的后台用云计算、大数据方式高速的自学习后能够自己跟自己对奕,同时在讲述腾讯关于大数据的研究,认为人工智能是一个全社会的协调最后发展的过程。