“得益于大语言模型推动人工智能发展,图形图像学的研究和应用迎来新的机遇,正在推动大语言模型向大视觉模型发展。”2023年12月30日,在辞旧迎新之际,中国工程院院士、机器人视觉感知与控制技术国家工程研究中心主任王耀南在第十九届中国图象图形学学会青年科学家会议上,分享机器视觉智能化发展的最新趋势。
在接受南都记者专访时,王耀南表示,人工智能让机器视觉走向智能化,更高的算力能够支撑大视觉模型的训练。不过,更聪明的大视觉模型还需要更高的算力水平、更好的模型架构和更有效的学习算法。
本次会议由中国图象图形学学会主办,琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会承办。
谈行业趋势
从视觉计算走向视觉智能
王耀南:我国的机器视觉研究已有接近40年的历史,最初是从传感器的研究开始的,即:将光的信息转化成图片信息。接下来要做的是视觉的处理,包括将获得的图片增强,使其变得更清晰。
有了清晰的图像后,我们需要从图片中获取我们感兴趣的目标。例如,在无人驾驶领域,机器视觉需要对图片中的目标进行检测,要回答哪些是人、哪些是车的问题。
这就是我们所说的机器视觉的三大领域。我把它归结为:成像、处理和理解。
机器视觉已经从过去的视觉计算走向了今天的视觉智能。视觉计算结合人工智能后,认知水平得到了提升,增强了对复杂环境的理解能力,整个视觉智能化行业在去年得到了快速发展。
机器视觉智能化发展的方向是进行广泛应用,应用到工业检测、智能制造以及卫星遥感等领域。
谈机器视觉,一定要谈它的应用,应用驱动技术发展。中国图象图形学学会有30个专委会,主要围绕图形图像展开研究,为国民经济服务。这些技术的应用场景十分广泛,包括工业、农业、地理信息系统、遥感、国土资源等。
一个人一出生就能看到这个世界,之后理解这个世界,80%的信息靠视觉获取。机器视觉是要模拟人的眼睛,最终达到人眼的水平,并在部分方面超过人眼,要看得更远、看得更清。
谈大视觉模型
大视觉模型会越来越聪明
王耀南:大语言模型是用书本上、语言上、文字上的知识作为数据,进行训练的神经网络模型,能够根据它所学的知识进行推理和回答,是一种数据驱动的人工智能。
大视觉模型的数据则主要来自各种图像,包括人类和自然界产生的视觉数据。例如,医学大视觉模型就是将人的器官、病变的图像等作为视觉数据输入到大模型中,进行训练得到,可以像大夫一样看懂CT照片,能够达到病人来看病后,拍照完便能推理出病人病情的效果。
当前的视觉大模型并没有大家想象的和人脑一样,差距还很大。随着学习的数据的增多、模型参数的调整,模型会越来越大、知识也会越来越多,其智能水平就会越来越高,越来越聪明。
我们需要提高算力水平,加快计算速度,以能够更快地建立模型;设计更好的模型架构,包括可解释性更强、更安全可控;还需要研究更有效的学习算法。
事实上,视觉大模型并不是这几年才有的,是一步一步发展过来的。在上世纪80年代,随着人工智能的发展,人们开始研究神经网络的时候,就已经有了。只是,最近几年的算力和算法能力提高了,人们可以尝试构建大模型,产生了大语言模型和大视觉模型。过去算力不够的时候,大家做的模型没有那么大。
谈2024年展望
希望业务从广州增长推向全国和世界
王耀南:湖南大学机器人视觉感知与控制技术国家工程研究中心在2022年已经入驻到位于粤港澳大湾区的广州增城,建立了湖大粤港澳大湾区创新研究院(广州增城)。
研究院主要进行机器智能视觉的研究和应用,包括智能制造、医疗制药等领域的特殊作业机器人,以及通用的大视觉模型。例如,这些研究运用到制造业中,可以替代大量的人工,完成产品质量的检测,特别是3C和高端零部件行业。当前,研究院已经开发了软硬件系统,主要的功能是赋能广东企业数字化、智慧化转型,推动制造业发展。
此外,研究院也开展智能的机器视觉和控制系统,主要用于高端智能装备的生产,例如工业互联网软件,这其中有非常多的算法。
广东是改革开放和经济主战场的前沿,产业链、供应链齐全,制造业企业很多,我们来到广东布局一是出于市场需求。此外,我们研究中心此前已有不少研发团队在广东落地了很多项目,进行科技成果的转化。
在2023年的上半年,我们确实遇到了一些挑战,主要体现在零部件的供应方面。2024年,我相信这些问题都会解决,广东人工智能产业的产业链、供应链以及研发能力都会有所提升。在国内这个大市场里,会开辟出新的赛道。在活力的氛围下,大家主动作为、担当和创新,挑战都能解决。
我对广东的人工智能产业发展充满信心。过去30年里,我们在科技自立自强方面下了很多功夫,积累了很多科研成果。广东是我国经济第一大省。
我们所从事的人工智能与机器人这个领域赶上了一个好机遇,这两年爆炸性地增长,带来很多新市场,拉动了新的产业赛道。未来智能终端将越来越多,也将带动生产型设施设备行业的发展。在2024年,我希望我们位于广州增城的研究院能够将业务推向全国和世界。