1月15日消息,据百度硅谷人工智能实验室(SVAIL)官方1月15日消息,百度已开源关键人工智能(AI)软件Warp-CTC,公开了关键代码。对研究人员来说,该软件可用于解决绘制输入序列到输出序列图谱过程中的监督问题,如语音识别问题,外界预计这将推动人工智能产业的快速发展。
据悉,Warp-CTC是百度前期为了在最新的计算机芯片上更快速运行而专门研发的一种改良版深度学习算法。百度硅谷实验室目前已向GitHub上传了Warp-CTC C代码库,鼓励开发者试用这些代码。百度表示,代码将开放给所有从业者。
CTC(链结式时间分类算法)方法始于2006年,在瑞士AI实验室IDSIA的论文中有所描述。CTC结合了多个不同的神经网络设计,以处理不完美的数据集。百度即在此基础上开发了Warp-CTC,用于提升语音识别能力。
百度称,SVAIL工程师在打造端对端语音识别系统时开发了Warp-CTC,目的是要通过CTC来改善培训模型的可扩展性。“我们发现,可用的CTC技术通常需要更多的内存和,或是几十到几百倍的减速。”
百度表示,希望此次开源能促使端到端的深度学习变得更简单、速度更快,加快研究者的进度,进而对机器学习领域的进步做出贡献。
部分代码被用于开发一款深度语音识别系统Deep Speech 2。对于一些简短的句子,该系统比大多数人类更善于正确地识别语音。该技术使百度数亿用户可以更好的访问其服务,尤其是在移动端。在智能手机上输入汉字较为复杂,中国很多人已经习惯用语音来发送短信或在网上搜索信息。
分析人士指出,深度学习使计算机可以执行各种“用脑”的学习型操作,如精致地转录语音或识别物体图像。也就是说,一个大型模拟神经网络中导入特定字词的音频或特定物体的图像,随着时间推移,此网络将不断“学习”以识别几乎任何新的例子。