普林斯顿大学的研究人员探索了一种新的机器人教学方法,他们发现人类语言对工具的描述可以加速模拟机械臂举起和使用各种工具的学习。
结果建立在证据之上,即在人工智能(AI)训练期间提供更丰富的信息可以使自主机器人更适应新情况,从而提高其安全性和有效性。
将工具形式和功能的描述添加到机器人的训练过程中,可以提高机器人操纵新遇到的工具的能力,这些工具不在原始训练集中。一组机械工程师和计算机科学家在12月14日的机器人学习会议上介绍了新方法,即使用语言加速学习工具操作或ATLA。
机械臂在帮助完成重复性或具有挑战性的任务方面具有巨大的潜力,但训练机器人有效地操作工具是很困难的:工具的形状多种多样,而且机器人的灵巧性和视觉是人类无法比拟的。
你可以看到这个机械臂正在推动一个工具。这是普林斯顿研究人员赋予模拟手臂的四项任务之一。他们还要求它举起工具;用它沿着桌子扫一个圆柱体;然后用锤子——或者试着用锤子——把一个钉子钉进一个洞里。在机器人工具操作的新方法中,他们发现工具的人类语言描述可以帮助机器人更快地学习使用工具,并提高其在一组不熟悉的工具上的性能。这项研究是提高机器人在不同于训练环境的新情况下发挥作用的努力的一部分。图片来源:AllenZ.Ren等人。/亚伦内森
“语言形式的额外信息可以帮助机器人更快地学习使用这些工具,”该研究的合著者、普林斯顿大学机械和航空航天工程助理教授、智能机器人运动实验室负责人AnirudhaMajumdar说。
该团队通过查询GPT-3获得了工具描述,GPT-3是OpenAI于2020年发布的一种大型语言模型,它使用一种称为深度学习的AI形式来响应提示生成文本。在尝试了各种提示后,他们决定使用“以详细和科学的方式描述[工具]的[特征]”,其中特征是工具的形状或用途。
KarthikNarasimhan说:“因为这些语言模型是在互联网上训练的,所以从某种意义上说,你可以认为这是一种不同的检索信息的方式”,比使用众包或抓取特定网站来获取工具描述更有效、更全面。计算机科学助理教授和该研究的合著者。Narasimhan是普林斯顿自然语言处理(NLP)小组的首席教员,并作为OpenAI的访问研究科学家为最初的GPT语言模型做出了贡献。
这项工作是Narasimhan和Majumdar研究小组之间的首次合作。Majumdar专注于开发基于AI的策略,以帮助机器人(包括飞行和行走机器人)将它们的功能推广到新环境,他对最近“自然语言处理方面的巨大进步”有利于机器人学习的潜力感到好奇,他说。
对于他们的模拟机器人学习实验,该团队选择了一套包含27种工具的训练集,从斧头到橡皮扫帚。他们给机械臂分配了四种不同的任务:推动工具、提起工具、用它沿着桌子扫动圆柱体,或者将钉子锤入孔中。研究人员使用包含和不包含语言信息的机器学习训练方法开发了一套策略,然后比较了策略在九个工具的单独测试集上的性能以及配对描述。
这种方法被称为元学习,因为机器人提高了它在每个连续任务中的学习能力。Narasimhan说,它不仅要学习使用每种工具,还要“努力学习理解这百种不同工具中每一种的描述,所以当它看到第101种工具时,它会更快地学习使用新工具”。“我们正在做两件事:我们正在教机器人如何使用工具,但我们也在教它英语。”
研究人员使用九种测试工具测量了机器人在推、举、扫和锤击方面的成功率,并将在机器学习过程中使用语言的策略与不使用语言信息的策略所取得的结果进行了比较。在大多数情况下,语言信息为机器人使用新工具的能力提供了显着优势。
一项显示政策之间显着差异的任务是使用撬棍沿着桌子扫动圆柱体或瓶子,博士AllenZ.Ren说。Majumdar小组的学生和该研究论文的主要作者。
“通过语言训练,它学会了抓住撬棍的长端,并利用弯曲的表面更好地限制瓶子的移动,”任说。“没有语言,它把撬棍紧贴在曲面上,更难控制。”
这项研究是Majumdar研究小组的一个更大项目的一部分,该项目旨在提高机器人在与其训练环境不同的新情况下发挥作用的能力。
Majumdar说:“广泛的目标是让机器人系统——特别是那些使用机器学习训练的系统——推广到新环境。”他的团队的其他工作已经解决了基于视觉的机器人控制的故障预测,并使用了“对抗环境生成”方法可帮助机器人策略在其初始训练之外的条件下更好地发挥作用。
这篇名为“利用语言加速工具操作学习”的文章于12月14日在机器人学习会议上发表。除了Majumdar、Narasimhan和Ren,合著者还包括最近从普林斯顿大学毕业的BharatGovil和获得博士学位的Tsung-YenYang。今年在普林斯顿获得电气工程博士学位,现在是MetaPlatformsInc.的机器学习科学家。