在执行联合任务时,机器人之间可以保持着不间断的通讯,比如“我通过了一扇门,正向右转90度”,“前进两英尺,我遇到一堵墙,正右转90度”,“前进4英尺,我遇到一堵墙”……这样它们能同时掌握事件的最新进展。当然,计算机能毫无困难地把大量信息归档存储,需要时立即调出来,判断出当下情况,但对人类来说,这样连串密集的数据会让人疯掉。
在前不久召开的美国人工智能发展协会年会上,麻省理工学院计算机科学与人工智能实验室(CSAIL)研究人员提出了一种模拟机器人合作的新方法,能使所需的通讯量减少60%。新模型让设计人与机器人合作系统变得更容易,比如打造出一支人机合作的应急救援队伍。
降低多智能体系统通讯成本
在计算机术语中,多智能体系统(Multiagent System)是自主智能体(电子的或非电子的)之间能实现任意协作的系统。每个主体既要能运行一个反映它所认知的世界当前状态的模型,即机器人世界观,还要能运行其他任何一个机器人的世界观模型。在模型精确性概率中,机器人本身也是需要考虑的因素,它们必须以这些概率为基础,决定是否改变自己的行为。
模拟多智能体系统的方法称为Dec- POMDP(分布式部分可观测马尔可夫决策过程)。Dec-POMDP系统包括多种不确定性,要考虑队伍中某一个机器人的世界观是否正确,它对伙伴世界观的判断是否正确,还要考虑它采取的任何一项行动能否成功。比如,机器人原计划向前移动20英尺,却发现横向吹来的风把自己吹得偏移了路线。如果一个机器人决定发布一条新信息,会迫使同伴也更新自己的模型,在整体中搅起新一轮的不确定性。如果这一信息并非必要的,就只会造成严重滞缓而达不到任何目的。
一般情况下,Dec-POMDP系统会对环境情况做一些先验假设,让机器人在这些假设的基础上行动。但紧急反应系统不能先做假设,因为救援队通常要进入不熟悉的环境,最好的先验知识也不管用。而且紧急救援要对环境有全局性掌握,算出一套多机器人方案极为耗时。研究人员的设计是,让系统忽略行动效果的不确定性,假设无论一个机器人打算做什么,它都会去做。
协调个体行动使整体最优化
当机器人接到一条新信息,比如某建筑物内一条通道被封闭了,它有3个选择:一是忽视这条信息;二是采纳它但不发布出去;三是采纳并发布该信息——每个选择都有优点和相应的通讯成本。如果机器人把新信息纳入自己的世界观模型但不发出去,也会产生成本,即对同伴来说,要判断它的世界观会更困难。对于每个机器人获得的每条新信息,新系统会根据它们的世界模型、它们对伙伴行为的预期、更有效地完成共同目标的可能性等,进行成本—效益分析。
研究人员在300多个计算机上测试了他们的系统,模拟在不熟悉的环境中完成救援任务。这套系统有多个版本,其中一个允许进行广泛通讯以完成任务。他们发现,这一版本的速度比其他版本要高2%—10%,通讯量减少了60%。
研究人员指出,在多智能体系统中,可能有60%的通讯是不必要的。在这次实验中,所有智能体都是计算机模拟的,而没有人类参与。论文合著者、航空与航天学副教授朱莉·沙哈说:“我们还没有在人类—机器人团队中实施这一系统,但前景令人兴奋。可以设想一下,你能将通讯量减少60%,或许对于人类完成自己在团队中的任务而言,这些通讯并非真正必要。”
设计人机合作应急救援系统
澳大利亚墨尔本大学计算与信息系统副教授蒂姆·米勒说:“在人类团队中,如果某个队员一接到新信息就将其发布给所有队员,通常不是个好做法,尤其在通讯成本较高的情况下。这很容易理解。这项研究不止用于多智能体系统,还能用于人类与智能体交互领域,这一领域的通讯成本很高。更重要的是,如果接受太多信息的话,人类队员很快会不堪重负。”
在另一个项目中,研究人员让人类志愿者团队执行了与机器人系统相同的虚拟救援任务,并通过机器学习算法,对人类的通讯模式进行了统计分析,将分析结果纳入新模型,让系统能更明确地协调人机混合团队。
沙哈说,他们必须先在人类志愿者团队中进行实验,才能把这套系统用在人类与机器人混合团队中,如果系统总是告诉人们不真实的信息,人—机团队必然失败。