知情人士透露,特斯拉已经改变了其擎天柱人形机器人的训练策略,未来或将主要依靠视频训练,而不是仅依靠动作捕捉和遥控操作。这一人事变动发生在擎天柱项目主管米兰·科瓦奇卸任后不久。知情人士透露,人工智能主管阿肖克·埃卢斯瓦米已接任该项目负责人。特斯拉长期以来一直使用类似的方法来训练其自动驾驶软件,这一技术路线转变体现了埃隆·马斯克使用机器视觉+人工智能路线的坚持,也反映了该公司对自动驾驶技术的态度。
该汽车制造商的内部人士在6月底告诉员工,将更加注重Optimus项目的愿景导向,但此前特斯拉正在利用一份陈旧的技术蓝图来训练其人形机器人,例如特斯拉此前曾使用动作捕捉服和虚拟现实设备来记录人类操作员的数据并远程操作机器人,这引发外界对于其技术前沿性的质疑。如今,这家汽车制造商计划专注于录制工人执行任务的视频,并以此教会机器人如何快速执行诸如拾取物体或折叠T恤之类的操作。据内部人士透露,该公司表示,放弃动作捕捉服和远程操作将使团队能够更快地扩大数据收集规模。
▍新技术路线的可能性
目前消息人士称,尚不清楚特斯拉未来是否会再次优先考虑动作捕捉服和远程操作,或者是否会利用视频数据来巩固之前收集的信息。因为远程操作和动作捕捉是行业内训练机器人的标准做法。例如,领先的机器人公司波士顿动力公司就已利用远程操作技术训练其Atlas机器人。在训练过程中,执行各种任务的工人会穿着动作捕捉服;然后将数据输入机器人。此外,还可以穿着动作捕捉服来远程控制机器人。有业内人士表示,大量的远程操作数据可以让机器人通过与环境进行物理交互来学习,但教会机器人将视频数据转化为现实世界的内容可能很困难。
今年5月,特斯拉发布了一段视频,Optimus硬件部门主管Konstantinos Laskaris在LinkedIn帖子中已经承认了这一新策略的应用潜力。“这听起来难以置信,但我们的机器人确实直接从人类视频中学习新任务!”Laskaris当时写道。马斯克还在五月份表示,该机器人最终将能够通过观看YouTube视频来学习如何执行任务。
据知情人士透露,在过渡期间,特斯拉曾短暂暂停了Optimus团队的招聘,过去一年中,有超过50人在不同时期担任过该职位。截至8月底,特斯拉的招聘页面上列出了最新50多个与Optimus相关的职位,但排除了动作捕捉数据收集员的招聘项目。去年,该公司招聘“数据收集员”。这些职位负责执行和记录基本的家务,招聘信息显示,这些人员需要长时间穿着动作捕捉服和佩戴虚拟现实耳机,这项工作可能需要通过穿着动作捕捉服执行简单任务来收集数据,这些数据可以被记录下来并由数据注释者进行分析,以训练人工智能系统,以及直接远程操作人形机器人。视频片段显示,一名操作员身穿动作捕捉服,戴着触觉手套和 VR 耳机拾取物体,而仿真环境下的特斯拉擎天柱机器人则执行相同的动作。
截至6月底,该项目仍在进行远程操作Optimus,并通过动作捕捉服对其进行训练。内部人士表示,自培训轮班以来,工人们一直专注于使用内部制造的五台摄像头记录自己的动作。这些摄像头安装在工人佩戴的头盔和沉重的背包上,摄像头指向各个方向,为人工智能模型提供数据,使其能够精确地适应周围环境。有专家介绍,不同的摄像角度可能让特斯拉的工程师借此能够收集更多细微的细节,“比如关节和手指的位置”,并将机器人正确地放置在空间中。
消息人士称,工作人员花费了大量时间排除动作捕捉服和Optimus的问题,这限制了团队能够收集的数据量,例如工厂动作的训练,可能需要数十万小时到数百万小时的数据才能基本实现,这意味着需要收集的数据量成本达到五亿美元,而且不确定能否成功。因此他们正在试图寻找新的方法,目前使用的视频,可能是他们之前通过远程操作收集的数据的一种补充和扩列的举措,也可能成为未来Optimus人形机器人训练的常态。
▍合成数据或成为新方法
谢菲尔德大学机器人专家乔纳森·艾特肯(Jonathan Aitken)接受外媒采访时表示,特斯拉可能在寻找一个更加通用的方法,来训练擎天柱以适用于各种任务动作。因为随着数据规模和任务规模提升,动作所消耗的时长,将会成为大多人形机器人公司无法接受的问题。工人们会收到关于如何执行培训任务的具体指导,尤其是在手部动作方面,并确保动作尽可能像人类一样。一位知情人士表示,他们可能要花几个月的时间来完成同一项简单的任务。
他补充说,这也使得特斯拉或许未来会采用与Physical Intelligence类似的策略。该公司为机器人提供大量演示数据,以便它们能够学习可转移的技能并灵活应用,而不仅仅是记住如何执行单一任务。
马斯克在一月份的财报电话会议上承认这一问题,“擎天柱人形机器人的训练需求最终可能至少是汽车所需训练需求的10倍。”这意味着对于特斯拉来说,训练Optimus将是一个比开发自动驾驶汽车更艰巨的项目。
新方法与特斯拉自动驾驶软件的训练流程相一致。虽然其他自动驾驶汽车公司大多使用激光雷达和雷达传感器来训练他们的自动驾驶软件,但特斯拉主要依靠机器视觉从数百万车主收集的数据中快速训练。此前特斯拉就展示了他们利用亚洲公开的街道视频训练了其人工智能系统。
但也有专家指出,因为人形机器人的训练难度无疑更大,因为行走只是其中一项任务,人形机器人还需要通过视频学习理解这些事情,然后掌握完成任务的技能,有些东西可以通过观看来学习,而有些东西则需要通过实际练习,无论是在模拟器中还是在现实世界中。
如果特斯拉只是使用视频数据,而舍弃直接获得真实数据,很难弥补虚拟到现实的鸿沟。虽然折叠T恤和捡拾物品这类交互成本低的任务或许能通过视频学习完成,但是更多真实任务却很难完美达成。这使得波士顿动力以及部分中国公司采用的视频数据与真实数据的混合应用策略或许依然是更远的未来。
全部评论 (0)