• 官方微信

    CA800二维码微平台 大视野

  • 工控头条

    CA800二维码工控头条App

当前位置:自动化网>自动化新闻>行业资讯>中国团队在视觉常识推理领域获新突破

中国团队在视觉常识推理领域获新突破

发布时间:2020-12-02 来源:央广网 类型:行业资讯 人浏览
关键字:

导  读:

视觉常识推理VCR (Visual Commonsense Reasoning )是人工智能领域的前沿热点问题,从处理类型单一的数据到跨媒体认知、学习和推理的“跨媒体智能”被认为是五大智能方向。  近日,腾讯微视视频理解团队在多模态理解领域最权威排行榜之一VCR任务中荣登榜首。该团队提出的BLENDer(BimodaL ENcoDer)模型超越多家研究机构的模...,人工智能,智能,智能,人工智能

  视觉常识推理VCR (Visual Commonsense Reasoning )是人工智能领域的前沿热点问题,从处理类型单一的数据到跨媒体认知、学习和推理的“跨媒体智能”被认为是五大智能方向。

  近日,腾讯微视视频理解团队在多模态理解领域最权威排行榜之一VCR任务中荣登榜首。该团队提出的BLENDer(BimodaL ENcoDer)模型超越多家研究机构的模型效果,一举成为单、多模型的三项指标第一,值得注意的是,BLENDer仅凭单模型效果便超越了此前榜单上的多模型最好效果,赋予了机器更强大的理解和认知能力,并深度应用到短视频领域。
  VisualCommonsense Reasoning (VCR)任务于2018年由华盛顿大学的研究人员首次提出,任务旨在将图像和自然语言理解二者结合,验证多模态模型高阶认知和常识推理的能力,让机器拥有“看图说话”的能力,例如VCR能够通过图片中人物的行为,进一步推理出其动机、情绪等信息。VCR榜单是多模态理解领域最权威的排行榜之一,也是当前图像理解和多模态领域层次最深、门槛最高的任务之一,吸引了微软、谷歌、Facebook、百度、UCLA等国内外公司和研究机构纷纷参与。
  据相关负责人介绍,BLENDer模型赋予了平台更强大的认知能力,使得包含文本、音频、视频等多种媒体信息在内的短视频内容,能够更好的做到分类和识别,更加精准理解和挖掘这些海量的跨媒体信息。
  在BLENDer模型中,第一阶段以NLP中的Bert模型为起点,结合海量数据中抽取得到的数百万张图片和对应描述文本作为BLENDer的输入进行多模态训练;第二阶段,在视觉常识推理数据集上学习电影中的场景和情节,使模型在新数据上获得更好的迁移能力;第三阶段,引入最终问答任务,让BLENDer利用已有的知识和常识对现有问题进行人物-人物、人物-场景之间关系的挖掘和关联进行推理,得到最终的答案。
  未来,人工智能将具备更加多元、深度的交流学习能力,而技术的创新和精进将进一步推动AI技术在短视频业务中智能交互场景的落地。(记者 张铭阳)

免责声明:本文仅代表作者个人观点,与中国自动化网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容!来源网络如有误有侵权则删。

猜您喜欢

更多精彩信息看点 请扫描以下二维码