当通信线路开放时,机器人或无人机等个体代理可以协同工作,协作完成任务。但是,如果他们没有配备正确的硬件或信号被阻塞,从而无法进行通信怎么办?伊利诺伊大学厄巴纳-香槟分校的研究人员从这个更困难的挑战开始。他们开发了一种使用多智能体强化学习(一种人工智能)训练多个智能体协同工作的方法。
伊利诺伊州的航空工程师HuyTran说:“当代理人可以互相交谈时,会更容易。”“但我们希望以一种去中心化的方式来做到这一点,这意味着他们不会互相交谈。我们还关注代理的不同角色或工作应该是什么并不明显的情况。”
Tran说,这种情况要复杂得多,也是一个更难的问题,因为不清楚一个代理与另一个代理应该做什么。
“有趣的问题是,随着时间的推移,我们如何学会一起完成一项任务,”Tran说。
Tran和他的合作者使用机器学习来解决这个问题,方法是创建一个实用函数,该函数告诉代理什么时候做对团队有用或有益的事情。
“对于球队的进球,很难知道谁为胜利做出了贡献,”他说。“我们开发了一种机器学习技术,使我们能够识别个人代理何时为全球团队目标做出贡献。如果你从运动的角度来看,一名足球运动员可能会得分,但我们也想知道其他队友的行动“这导致了进球,就像助攻一样。很难理解这些延迟效应。”
图片来源:伊利诺伊大学航空航天工程系
研究人员开发的算法还可以识别代理或机器人何时在做对目标没有贡献的事情。“与其说机器人选择做错事,不如说是对最终目标无用的事情。”
他们使用模拟游戏来测试他们的算法,例如夺旗游戏和流行的电脑游戏星际争霸。
“星际争霸可能有点难以预测——我们很高兴看到我们的方法在这种环境下也能很好地工作。”
Tran说,这种算法适用于许多现实生活中的情况,例如监视、机器人在仓库中协同工作、交通信号控制、自动车辆协调交付或控制电网。
Tran说,SeungHyunKim在攻读机械工程的本科生时就完成了这个想法背后的大部分理论,而航空专业的学生NealeVanStralen则帮助实施了这个想法。Tran和GirishChowdhary为两名学生提供建议。这项工作最近在自治代理和多代理系统同行评审会议上提交给AI社区。
这项名为“解开多智能体强化学习中协调的后继特征”的研究发表在2022年5月举行的第21届自主智能体和多智能体系统国际会议论文集上。