使用大型语言模型实现开放世界交互式和个性化的机器人导航

导读 理想情况下,机器人应该以灵活的方式与周围的用户和物体进行交互,而不是总是坚持相同的响应和动作。旨在实现这一目标的机器人方法最近获得...

理想情况下,机器人应该以灵活的方式与周围的用户和物体进行交互,而不是总是坚持相同的响应和动作。旨在实现这一目标的机器人方法最近获得了广泛的研究关注,即零样本对象导航(ZSON)。

ZSON需要开发先进的计算技术,使机器人代理能够导航未知的环境,与以前未见过的对象交互并响应各种提示。虽然其中一些技术取得了有希望的结果,但它们通常只允许机器人定位通用类别的物体,而不是使用自然语言处理来理解用户的提示并定位特定的物体。

密歇根大学的一组研究人员最近着手开发一种新方法,该方法将增强机器人探索开放世界环境并以个性化方式导航的能力。他们提出的框架在arXiv预印本服务器上发表的一篇论文中介绍,使用大型语言模型(LLM)来允许机器人更好地响应用户提出的请求,例如定位附近的特定物体。

YinpeiDai、RunPeng及其同事在论文中写道:“ZSON的现有工作主要侧重于遵循单独的指令来查找通用对象类,忽略了自然语言交互的利用以及识别用户特定对象的复杂性。”“为了解决这些限制,我们引入了零样本交互式个性化对象导航(ZIPON),机器人需要在与用户对话的同时导航到个性化目标对象。”

在他们的论文中,戴、彭和他们的合作者首先介绍了一项新任务,他们将其称为Zipon。该任务是ZSON的通用形式,需要准确响应个性化提示并定位特定目标对象。

如果说传统的ZSON需要定位附近的床或椅子,那么Zipon则更进一步,要求机器人识别特定人的床、从亚马逊购买的椅子等。研究人员随后尝试开发一种计算框架来有效解决这个问题。

“为了解决ZipON,我们提出了一个名为开放世界交互式个性化导航(ORION)的新框架,该框架使用大型语言模型(LLM)做出顺序决策来操纵不同的感知、导航和通信模块,”Dai、Peng及其团队同事们在论文中写道。

该研究团队开发的新框架有六个关键模块:控制、语义图、开放词汇检测、探索、记忆和交互模块。控制模块允许机器人在周围环境中移动,语义图模块索引自然语言,开放词汇检测模块允许机器人根据基于语言的描述来检测物体。

然后,机器人使用探索模块搜索周围环境中的物体,同时将重要信息和从用户收到的反馈存储在内存模块中。最后,交互模块允许机器人与用户交谈,口头响应他们的请求。

Dai、Peng和他们的同事使用TIAGo(一种带有两条手臂的移动轮式机器人)在模拟和现实实验中评估了他们提出的框架。他们的发现很有希望,因为他们的框架成功地提高了机器人在尝试定位附近特定物体时利用用户反馈的能力。

“实验结果表明,能够利用用户反馈的交互式代理的性能表现出显着的改善,”戴、彭和他们的同事解释道。“然而,对于所有方法来说,在任务完成与导航和交互效率之间取得良好平衡仍然具有挑战性。我们进一步提供了有关不同用户反馈形式对代理性能影响的更多发现。”

虽然ORION框架显示出改进未知环境的个性化机器人导航的潜力,但该团队发现,同时确保机器人完成任务、顺利导航未知环境并与用户良好交互极具挑战性。将来,这项研究可以为完成Zipon任务的新模型的开发提供信息,这可以解决该团队提出的框架中报告的一些缺陷。

“这项工作只是我们探索个性化导航法学硕士的第一步,并且有一些局限性,”戴、彭和他们的同事在论文中写道。“例如,它不能处理更广泛的目标类型,例如图像目标,也不能解决与现实世界中用户的多模式交互。我们未来的努力将在这些维度上扩展,以提高交互式机器人在人类中的适应性和多功能性。世界。”