谷歌宣布推出首个 Robotics Transformer 2 (RT-2) 视觉-语言-动作 (VLA) 模型。可以从网络和机器人数据中学习,并将这些知识转化为用于机器人控制的通用指令,同时保留 web-scale 能力。
“RT-2 显示出超越其所接触的机器人数据的泛化能力以及语义和视觉理解能力。这包括解释新命令并通过执行基本推理(例如关于对象类别或高级描述的推理)来响应用户命令。 ”
根据介绍,RT-2 是一个基于 Transformer 的模型,通过网络上的文本和图像进行训练,并能直接输出机器人行为指令。就如同语言模型从网络文本中学习通用概念和思想,RT-2 也从网页数据中吸取知识以驱动机器人行为。“换句话说,RT-2 可以说机器人语言。”
去年,谷歌 DeepMind 的机器人团队曾展示了 Robotics Transformer (RT-1),可训练日常机器人系统执行诸如拾放和开启抽屉等任务。该系统基于包含 130,000 次演示的数据库,据团队称,有“超过 700”项任务的成功率达到 97%。
谷歌 DeepMind 机器人技术主管 Vincent Vanhoucke 在博客中表示,RT-1 表明,以跨系统泛化信息能力而著称的 Transformer 甚至可以帮助不同类型的机器人相互学习。
RT-2 建立在 RT-1 模型的基础上,消除了一些复杂性;使单个模型不仅能够执行基础模型中看到的复杂推理,而且还可以输出机器人动作。最重要的是,它表明在少量的机器人训练数据下,该系统就能够将其语言和视觉训练数据中嵌入的概念转移到指导机器人行为 —— 即使是对于从未接受过训练的任务。
“例如,如果想要以前的系统能够执行丢弃垃圾的行为,必须明确训练它识别和处理垃圾。然而,RT-2 可以从大量网络数据中学习并理解什么是垃圾,并在未经特定训练的情况下进行识别。尽管未曾接受过相关动作训练,但它甚至掌握了如何丢弃垃圾的方法。考虑到垃圾的抽象性 —— 比如各种薯片包装或香蕉皮在你食用后就成为了垃圾,RT-2 能通过其视觉语言培训数据理解这个概念,并完成任务。”
Vincent 称,RT-2 的能力在于将信息转化为行动,这显示了其快速适应新环境和情况的潜力。经过 6000 次的测试试验表明,RT-2 在训练数据中的任务或"seen"任务上的表现与 RT-1 模型相当。而在未见过的新场景中,RT-2 的性能表现几乎翻了一番,从 RT-1 的 32% 提高到了 62%。
“换句话说,通过 RT-2,机器人能够像我们一样学习更多内容 —— 将学到的概念迁移到新的情境中。RT-2 不仅展示了人工智能的进步如何迅速渗透到机器人领域,而且还展示了更多通用机器人的巨大前景。虽然要在以人为本的环境中打造有用的机器人还有大量工作要做,但 RT-2 向我们展示了机器人技术令人兴奋的未来。”
更多详情可查看官方博客。
(文/开源中国)