在几乎所有的科幻电影里,人工智能机器人都能像人类那样,用计算机视觉动态的识别周围环境、人与物。《星球大战7》里的新型机器人BB-8,还能通过头部的配合,制造出各种萌萌的眼神和表情。
然而与人类数千年的文化相比,计算机科学本身也不过几十年的历史。人眼可以轻易的识别各种2D和3D图像,对于计算机来说只是无数像素点的集合。如何让计算机分析这些捕获的像素点,“识别”出来各种物体,一直是计算机视觉想要攻克的难关。
微软研究院作为全球最大的企业研究院之一,长期以来也与其它科技机构一样,试图打开机器之眼。2015年底,微软在全球顶级的计算机视觉挑战赛ImageNet中拿下了全部三项主要项目的冠军。与此同时,在硬件端微软还开发出了针对智能终端的视觉识别模型压缩算法。
可以说,现在离计算机视觉的全面突破,只有一步之遥。
百层卷积神经网络
ImageNet挑战赛的项目之一是对1000 类、120万张互联网图片进行分类,每张图片人工标注5个相关类别,计算机识别的结果只要有一个和人工标注类别相同就算对。对于该图片集,人眼辨识错误率大概为5.1%,目前只有谷歌和微软等个别参赛团队的算法能够达到低于5%的结果。
2015年12月10日,微软亚洲研究院视觉计算组在ImageNet计算机识别挑战赛中再次打破纪录,获得图像分类、图像定位以及图像检测全部三个主要项目的冠军,将系统错误率降低至3.57%。
在计算机视觉识别领域,卷积神经网络是主要的识别算法。微软亚洲研究院视觉计算组首席研究员孙剑介绍,之所以能实现3.57%的重大突破,是因为他所带领的研究团队使用了前所未有的高达百层的深层卷积神经网络算法,比以往任何成功的算法层数多达5倍以上。
目前神经网络算法的层级普遍为20到30层,而在此次挑战赛中微软团队的卷积神经网络实现了152层。孙剑的团队还采用了全新的“残差学习”原则,很好地解决了神经网络的层级数与准确度之间的矛盾。孙剑说,“深层残差网络”极为通用,将极大地改善计算机视觉的研究。
1 2 下页