为了让机器人能够胜任更复杂的工作,机器人不但要有更好的控制系统,还需要能更多地感知环境的变化。如今的机器人可以深入核电站进行调查、清理海洋石油泄漏、组建无人军队、探索火星表面……但神通广大的它们甚至无法像人类一样简单地喝一口茶。
左侧为提供的3D模型,右侧为实际3D模型,中间为机器人预测模型
今年5月,AlphaGo与柯洁对弈时曾在己方一侧起手落子,这违反了对弈的礼仪,引发了激烈争论。事后据DeepMind工作人员解释,计算机无法分清上下左右,那只是无心之失。即使聪明如AlphaGo,它也分不清2D图像的方位,对于其他机器人来说,拥有能感知到水壶、方糖、牛奶的能力,更是遥不可及。
当人类从一个特定角度看物体时,他们往往能直观地知道它是什么,甚至可以立即绘出物体的俯视图、正视图、侧视图,这里有一种“想象”(联系经验)的能力。不同于人眼,机器人利用传感器和相机,能轻易捕捉到物体的图像,甚至是3D图像,但在只有一个角度图像的情况下,机器人是无法一眼判断出物体的原型的,这还是目前机器视觉研究的一个难点。
在7月12日召开的“2017机器人:科技和系统大会”上,杜克大学的研究生本·比奇费尔(Ben Burchfiel)和布朗大学教授George Konidaris展示了他们的科研新成果——一一种针对机器3D视觉的算法。根据这个算法,机器人能在只看到物体的一面,甚至是一部分的情况下,准确地推测出它的3D模型。
研究人员选取一些常见的家居物品进行了4000次完整的3D扫描。扫描获得的3D图像被切割成一个个体素,像乐高积木一样堆叠在一起。该算法通过梳理每个对象的示例,并使用一种名为“概率主成分分析”的技术了解它们的变化以及它们如何保持不变。举个例子,就是当机器人观察一张床时,它只需根据特征体素比对就能知道面前的物品是床,而不必从各个方向搜集图像构建完整模型。
为了测试这种算法,研究人员又对10种相同的物品进行了扫描,共获得908幅俯视图。实验证明,机器人在大多数情况下能准确猜出对象是什么,并绘制完整3D模型(包括隐藏部分)。它的用时为一般机器人的75%,正确率在50%以上。
当然这个算法也存在缺陷。机器人“猜物”依据的是系统提供的扫描图,但许多明显不同的物品在某些角度会呈现相同的形状特征,如普通箱子的俯视图和桌子一样是方形的,在这样的情况下,机器人会被“迷惑”。因此这个算法还在实验阶段,并不能马上被产品化。
Burchfiel表示,接下来研究团队的研究方向是算法效率的提升,他希望机器人能在短时间内识别成千上万种物品。同时,重建3D图像(“想象”)也是一个主攻方向,未来机器人将突破“视觉”盲点限制,更准确地呈现物品原貌。