
Figure创始人兼首席执行官布雷特·阿德科克(Brett Adcock)周四公布了一种新的人形机器人机器学习模型。这则消息是在阿德科克宣布旧金山湾区机器人公司决定退出与OpenAI合作两周后公布的,该消息围绕Helix展开,这是一种“通用”的视觉-语言-动作(VLA)模型。
VLA对于机器人来说是一种新现象,利用视觉和语言指令来处理信息。目前,该类别最为人熟知的例子是谷歌DeepMind的RT-2,它通过视频和大型语言模型(LLM)的组合培训机器人。
Helix以类似的方式工作,通过结合视觉数据和语言提示来实时控制机器人。Figure写道:“Helix显示出强大的物体概括能力,能够通过自然语言询问来拾取数千种形状、大小、颜色和材料属性各异的家庭物品,这些物品在训练过程中从未遇到过。”

在理想的情况下,您可以简单地告诉机器人做某事,它就会去做。这就是Helix的作用,Figure表示。该平台旨在弥合视觉和语言处理之间的差距。在接收到自然语言语音提示后,机器人会视觉评估其环境,然后执行任务。
Figure提供了一些例子,例如“将饼干袋递给右侧的机器人”或者“从左侧的机器人接收饼干袋并将其放入打开的抽屉中”。这些例子都涉及两个机器人一起工作。这是因为Helix被设计为同时控制两个机器人,一个协助另一个进行各种家务任务。
Figure通过展示公司与其02人形机器人在家庭环境中的合作来展示VLM。由于家庭缺乏仓库和工厂的结构和一致性,因此房子对机器人来说尤其棘手。
学习和控制的困难是阻碍复杂机器人系统与家庭之间关系的主要障碍。这些问题,再加上成本数十万至数百万美元,是为什么家庭机器人没有成为大多数人形机器人公司的重点。一般来说,该方法是先为工业客户构建机器人,从而提高可靠性并降低成本,然后再解决住宅方面的问题。处理家务是未来几年的话题。
当TechCrunch在2024年参观Figure的旧金山湾区办公室时,阿德科克展示了公司正在家庭环境中对其人形机器人进行的一些测试。当时似乎并没有优先考虑这项工作,因为Figure侧重于与宝马等公司进行工作场所试点项目。

通过周四的Helix公告,Figure明确表示家庭应该成为其重点工作。对于测试这种训练模型而言,这是一个具有挑战性和复杂性的环境。教导机器人在厨房等复杂任务中可能会使它们能够在不同环境中进行广泛的动作。
Figure表示:“为了让机器人在家庭中有用,它们将需要能够根据需要生成智能的新行为,尤其是对于它们以前从未见过的物体。”“教导机器人甚至一个新行为目前需要巨大的人力投入:要么是数小时的博士级专家手动编程,要么是成千上万次演示。”
手动编程对家庭来说并不可扩展。有太多未知因素。厨房、客厅和浴室在各个地方差异巨大。用于烹饪和清洁的工具也是如此。此外,人们会留下杂乱,重新摆放家具,并选择各种不同的环境照明。这种方法需要太多的时间和金钱——尽管Figure显然有大量后者。
另一种选择是训练,而且训练次数很多。实验室中用于捡取和放置物体的机器臂通常使用这种方法。但你看不到的是成百上千个小时的重复,以使演示足够强大,能够应对高度变化的任务。要正确地第一次捡起某物,机器人需要之前已经做过上百次。
像目前围绕人形机器人的情况一样,Helix的工作仍处于非常早期阶段。观众应当知悉,为创造这种文章中所展示的简短、精心制作的视频,背后会有大量的工作。今天的公告本质上是一种招聘工具,旨在吸引更多工程师加入,协助推动项目的发展。