为提高计算机视觉能力,Facebook正为开发者社区越来越多地开源内部工具。
计算机视觉隶属于人工智能(AI),可协助机器理解图像。计算机视觉不需要手工输入关键词或描述语等元数据,而是将图像分解并在逐个像素的基础上处理图像。
照片,视频以及一般图像都是Facebook的重要素材,而计算机识别图像中的对象的能力非常利于缩放图像的内容分类。对于一段视频或一张图片,人眼可以轻易确定其中有3个人、1个冰箱和6罐啤酒,但对机器来说,建立自己的意志并不简单。面对图像上光线和颜色的无数种混合方式,人类显然更具优势。
然而计算机视觉技术已经取得跨越式发展,计算机越来越擅长识别图像的内容以及图像中对象的位置。检测对象只是一方面,机器还需要认清对象的重叠部分,这种影像分割问题更加复杂。比如,机器不能将动物的部分躯体和前方站立的人体混为一谈。Facebook的研究人员想要推进的就是这个方面。
Facebook 将一些计算机视觉算法代码上传到了GitHub以供大众下载,包括DeepMask分割框架还有SharpMask 分割精细化模块,以此促进、同时在某种意义上帮助Facebook 促进这项技术。另外还有给图像上对象逐一打标签的“专用卷积网络”MultiPathNet 。
Facebook 将一些计算机视觉算法代码上传到了GitHub以供大众下载,包括DeepMask分割框架还有SharpMask 分割精细化模块,以此促进、同时在某种意义上帮助Facebook 促进这项技术。另外还有给图像上对象逐一打标签的“专用卷积网络”MultiPathNet 。
“我们开放代码给所有人,希望他们能够一起助力机器视觉领域的迅速提升。”Facebook人工智能研究组(FAIR)的研究科学家Piotr Dollar在博文中说,“随着核心技术的发展,我们仍将继续发布最新成果,更新开放给大众的开源工具。”
越来越多的企业转向关注机器学习领域,为客户寻求更优质的自动化技术。最近被微软收购的联想输入键盘企业SwiftKey就在研究一个与AI有关的复杂后端。其中的人工神经网络(ANN)直接基于人类大脑的架构和工作方式。图片库巨头Shutterstock 也打造了自己的卷积神经网络以提高逆向图像搜索技术。
将自己的软件递交给开发者社区,Facebook 能够事半功倍。其实,Facebook 已多次开源内部技术。过去几个月中,这个社交网络巨头就为加速AI的研究开源了Torchnet ,以及将360photo 和 360video中的图片和视频嵌入到应用中的SDK。GitHub上,Facebook的项目有200多个。开源总监 James Pearce 最近解答了Facebook 拥抱开源社区的原因,总的来说可以归结为意识形态,创新,以及开源通常利于商业的这一事实经验。“我们在Facebook 的目标是,尽可能多地开源我们的技术,特别是我们认为对更广大的整个工程界来说有价值的技术。”