记者 张梦然
谁不想要一个可完全承担家务的机器人呢?这也是人们对机器人技术发展的一大梦想。
虽然机器人专家已经能够让机器人在实验室做一些像跑酷这样令人印象深刻的事情,但这都是在严格控制的环境中精心规划展开的。真要让机器人在你家中自主工作,多少还是让人不太放心,尤其是在有儿童和宠物的家庭。而且房屋设计各有不同,房间布置、物品摆放更是千差万别。
在机器人专家中,有一个被被广为认可的观点,称为“莫拉维克悖论”:对人类来说很难的事情,对机器来说很容易;而对人类来说容易的事情,对机器来说很难。但得益于人工智能(AI),这种情况现在正在改变。机器人开始能够完成诸如叠衣物、烹饪和卸载购物篮等任务,而这些在不久前还被视为机器人几乎不可能完成的任务。
据最新一期《麻省理工科技评论》报道,机器人技术作为一个领域正处于拐点:机器人正在走出实验室,进入千家万户。机器人技术即将迎来自己的高光时刻。
家用机器人不能太贵
过去的机器人就是昂贵的代名词,高度复杂款价格动辄数十万美元,这使得大多数家庭无法拥有它们。例如,PR2是家用机器人最早的迭代产品之一,重200公斤,售价40万美元。
幸好,新一代更便宜的机器人渐渐出现了。由美国初创公司Hello Robot开发的一款新型家庭机器人Stretch 3,价格就合理得多,24950美元,重量为24.5公斤。它有一个小型移动底座,一根悬挂着摄像头的摇杆,一个可调节手臂和一个末端带有吸盘的夹具,并且可通过控制器进行操作。
与此同时,美国斯坦福大学研究团队建立了一个名为Mobile ALOHA(低成本开源硬件远程操作)的系统,能让机器人仅借助20个数据(包括人类演示)就学会烹饪虾。团队使用现成组件建造出价格更合理的机器人,虽然也要数万美元,但之前的类似款动辄数十万美元。
AI构建“通用机器人大脑”
将这批新机器人与“前辈”区分开来的,其实是它们的软件。由于AI繁荣发展,现在的技术焦点,正在从昂贵机器人实现身体灵巧性转向,转变为用神经网络构建“通用机器人大脑”。
机器人专家正使用深度学习和神经网络来创建“大脑”系统,以便能在应用中从环境学习并相应调整机器人行为,而不是像传统的精心规划和艰苦培训。
2023年夏天,谷歌公司推出了视觉—语言—行动模型RT-2。该模型能从用于训练的在线文本和图像以及它自己的交互中获得对世界的一般理解,并把这些数据转化为机器人操作。
丰田研究所、哥伦比亚大学和麻省理工学院团队已借助一种称为模仿学习的AI学习技术以及生成式AI,快速教机器人完成许多新任务。该新方法将推动生成式AI技术从文本、图像和视频领域扩展到机器人运动领域。
从OpenAI现已关闭的机器人研究部门分拆出来的初创公司Covariant,则建立了一个多模态模型RFM-1,可接受文本、图像、视频、机器人指令的提示。生成式AI让机器人能理解指令并生成与这些任务相关的图像或视频。
更多数据催生更智能机器人
GPT-4等大型AI模型的力量,在于从互联网上囤积大量数据,但这并不适用于机器人,因为机器人需要专门为机器人收集的数据。它们需要实物演示如何打开洗衣机和冰箱、拿起盘子或折叠衣物。现在,这些数据非常稀缺,收集也需要很长时间。
谷歌深度思维公司发起了一项名为“开源X-Embodiment协作”的新计划,旨在改变这种状况。去年,该公司与34个实验室约150名研究人员合作,从22种不同的机器人收集数据,包括Hello Robot的Stretch 3。由此产生的数据集于2023年10月发布,其中包括机器人的527种技能,例如采摘、推动和移动等。
还有一种称为RT-X的机器人,研究人员专门为其构建了两个版本的模型,既可在各个实验室的计算机上本地运行,也可通过网络访问。
更大的、可通过网络访问的模型是用互联网数据预先训练的,以从大型语言和图像模型中发展出“视觉常识”。研究人员在许多不同机器人上运行RT-X模型时,就会发现,这种机器人学习技能的成功率,比每个实验室独立开发的系统高出50%。
总言之,是更多数据,催生出了更智能的机器人。