趣站 > 社会 > 正文

​斯坦福家务机器人,看似全能,实际靠遥控

2024-01-15 17:31 来源:网络 点击:

斯坦福家务机器人,看似全能,实际靠遥控

作者|杨逍

编辑|苏建勋

近日,斯坦福华人团队的 Mobile ALOHA" 全能家务机器人 " 在网上爆火,它展示了做饭、铺床、浇花等多种家务技能,可谓是全复合 " 保姆人才 "。

它能够煮虾,可以擦拭桌子上的红酒,能洗盘子,还可以自动打开电梯。

还可以打开窗帘为窗台上的花浇水,将衣服放到洗衣机里、撒上洗衣液洗衣。这让网友直呼机器人时代已来,它难能可贵在 " 眼里有活儿 "。

不过,Mobile ALOHA 所展示的复杂技能,其实是背后由人遥控操作的。

1 月 6 日清晨,发现网友为 Mobile ALOHA 所呈现的自主化、智能化能力倾倒后,Mobile ALOHA 的两位研发人员连忙 " 辟谣 ",称部分动作是机器人自主展示的,部分则由人遥控完成。

为了如实呈现机器人的能力,他们还专门放出了 Mobile ALOHA 在全自动状态下的 " 蠢笨 " 动作合集,称 " 机器人尚未准备好接管世界 "。

当你以为机器人能丝滑优雅地举起一杯红酒时,它只能颤颤巍巍地握住杯子,看着酒杯倾倒碎在地上,将红酒洒满桌;

红酒洒满桌

表现颇佳时,机器人能熟悉地端起左手颠锅、右手拿铲,完成一道菜肴的制作;但多是几次,原本挥洒自如的锅铲就不是对着铁锅底部一顿操作,就是在锅中挥舞但碰不到菜。

失败的炒菜案例

全自动状态下,它无法有力地控制住一把平底锅,将锅端起后,整个平锅便不可避免地掉落,为了拯救翻到的铁锅,守在旁边的研究人员还被烫伤了;

倒菜失败

甚至一根红色圆珠笔,Mobile ALOHA 也无法拾起。

拿记号笔

现实和理想还有差距,但 Mobile ALOHA 所呈现出的完成精细和复杂的任务的运动操作能力,仍值得关注,这让未来机器人更具有想象空间。

遥控的叠被子、做菜、洗衣技能

Mobile ALOHA 到底可以做到什么?

经过 20~50 轮演示和模仿学习,机器人可以自主完成一些复杂的移动操控任务。

  它能够按照人类做菜的顺序,将油倒入锅中,再放入一粒虾仁,并翻转锅铲将其炒熟,并拿起锅,转身将虾倒入背后已备好的盘子里。

炒虾

它可以自动按下电梯按钮,并成功进入电梯中;

自动开电梯

还可以精准打开一扇两门柜子,并抬手将一个 3 磅重的锅放入柜子中,再关上柜门。

将锅放入柜门

还可以在与人相遇后伸出 " 手 " 击掌。

与人击掌

目前,机器人可以连续 9 次完成端起酒杯擦桌子的动作;连续 5 次自主呼叫电梯,具有学会技能的能力。

但这个技能并非 100% 精准、智能,会出现错误,呈现出前文所展示的 " 失败状态 "。

对于一款想要进入家庭场景的机器人而言,比起技能丰富度,安全是更重要的前提。一款身体笨重、由钢铁材料制成的机器人,会给家带来远超狗等宠物的杀伤力。

机器人尚未做好准备接管世界,但拥有潜力。

为了探索 Mobile ALOHA 的潜力,符博士将机器人带回家中,并遥控机器人完成了一些复杂动作。

它能完成做滑蛋虾仁、干贝烧鸡、蚝油生菜厨艺,这里面涉及到了切蒜、洗生菜、打鸡蛋等细致动作。

做干贝烧鸡

在遥控状态下,它能拉开窗帘布、打开窗子,握着水壶浇水;

浇水

可以握着戴森吸尘机,进行全屋清洁;

用吸尘器打扫房间

它能在主人站着不动的情况下,捏着圆形的剃须刀完成整个刮胡子动作。

剃胡子

可以将衣服赛道洗衣机里,并转动洗衣液的圆形瓶盖,将洗衣液倒入洗衣机,再操作完成洗衣动作。

洗衣服

也能从抽纸盒中抽出一张纸,并揉成一团,再擦去玻璃上的灰,且控制机械与玻璃接触时,不伤害玻璃表面。

拿纸擦玻璃

虽然上述家务能力是由人遥控操作完成的,但机器人呈现的完成复杂、精细动作的物理可能,是一个巨大的进步。

它还解决了人形机器人领域的一大技术难题——面对布料这种柔软又单薄的材质,机器人要如何完成叠被子、叠衣服等人手可以简单完成的动作。

在遥控状态下,它可以完成铺平床单、为枕头套上枕套的动作,且机器人铺平的床可谓一丝不苟,远超当代年轻人的床物收纳能力范畴。

换床单

它还可以将一件衣服展开,捏着拉链头,拉上衣服拉链,再用衣服撑将其撑起,并放入衣柜中。

收纳衣服

在机器人世界,人手能简单完成的动作,对机器便越难。机器人还做不到 " 眼中有活 ",但手能干细致活。

Mobile ALOHA 的联合研发者 Tony Z.Zhao 还引用了 2015 年的 DARPA 机器人挑战大赛上的失败汇集,戏谑称希望特斯拉机器人的摔倒视频。

对于 Mobile ALOHA 的失败集锦,网友也格外宽容,称他们 " 愚蠢又可爱 ",也有人称 " 比起远程操控,自主果然困难很多 "。

软硬件开源,全套机器人仅需 3.2 万美元

Mobile ALOHA 的最大价值是物理操作能力的进步,它展示了机器人做重复性精细操作任务的潜力。

为了实现双手操作技巧,符博士团队基于谷歌 Deepmind 的 ALOHA 遥操作系统生成,设计出了一款低成本的全身远程操作系统 "Mobile ALOHA"。

Mobile ALOHA 是一个开源的操作系统,其学习原理是遥操作和模仿学习,即通过对人类重复动作的学习掌握技能,它是一种全身远程操作的双手移动操作系统。

谷歌的 ALOHA 遥操作系统更多是在桌面上进行思考,Mobile ALOHA 在底部上增加了移动底盘,增加了对机器人移动性和灵活性的训练。

借助集成的移动底座和全身远程操作界面,Mobile ALOHA 可以收集更多的机器人与现实世界交互的数据,并在交互过程中学习、模仿人类动作。

研究团队发现,只需对每项任务进行   50   次演示,Mobile ALOHA 学会动作的成功率能高达 90%,如可以实现连续 9 次擦红酒,连续 5 次成功使用电梯。

据符博士表示,之所以能在 50 个演示之内便实现上述效果,是因为Mobile-ALOHA   将模仿学习和静态操作数据结合协同训练。

协同训练效果

通过这种联合训练方式,机器人训练成功率可以显著提高,尤其是在执行需要精确操作的任务时。如在擦拭红酒任务中,举起酒杯和擦拭是最重要的子动作,在没有联合训练时,其成功率只有 58%,但联合训练后,成功率可以提高到 95%。

训练效果差别 1

这种联合数据训练的方式,在 VINN、扩散策略和 ACT 等不同的模拟学习方法上都有着不错的效果。如扩散策略下,整个任务的成功率原本只有 35%,但经过联合训练后,可以提高到 65%。

训练效果差别 2

此外,协同训练在不同数据组合情况下,鲁棒性、稳定性在不同维度上都得到了提高。

训练效果差别 3

在硬件上,它的外在形象并非最火的人形机器人形态,整个身体由一个移动底盘、一个操作界面,两个机械臂,反馈驱动,两个腕部相机及 1 个顶部相机构成。整个机器采用反向驱动结构的设计,控制者能通过操作台控制机械臂,指导 Mobile ALOHA 完成动作。它的底部安装有电池包,可断电使用。

Mobile ALOHA 的硬件设计

这款机器人和操作系统由斯坦福的三人团队研究而成——计算机科学博士生 Zipeng Fu 和 Tony Z.Zhao,和二人的指导老师是 Chelsea Finn。

他们在软硬件上都进行了开源,公布了代码、硬件结构和数据,团队还专门列出了具体的硬件清单,包括整套机器人下来成本只需要 3.2 万美元,即 22.7 万人民币。

这意味着,只要有兴趣,任何人都可以基于他们的研究成果,对机器人进行试验,去训练自己想实现的动作。

该硬件的运动底盘厂家松灵机器人已在官网表示,可以定制同款斯坦福 Mobile Aloha 机器人。

Mobile Aloha 机器人

2024 年被认为是人形机器人元年,无论是特斯拉、波士顿动力等具身智能玩家,还是如谷歌的 AutoRT 控制系统,又或 RT-2 机器人大模型,都在从不同维度推动人形机器人发展。在最长远的想象力,进入家庭的人形机器人将会带来巨大的市场空间。

原本以特斯拉、智元机器人等人形机器人都将 to B 场景看作最先落地的未来,To C 家庭场景则更具有难度,但 Mobile ALOHA 的机器人让 To C 场景看到曙光。

全自动的机器人时代虽尚未来到,但 Mobile ALOHA 仅通过两指夹具,便完成了洗衣、做饭等高难度动作,这让家务机器人、人形机器人有了更加具象的想象空间。