特斯拉擎天柱2025年投产5000台,成本降至2万美元

在一段最新发布的视频中,特斯拉人形机器人Optimus(擎天柱)安静地坐在桌前,摄像头扫过桌面,随即伸手抓起一块电池,准确放入指定区域。整个过程没有预设指令,也没有人工干预。这一看似简单的动作,背后却隐藏着一场技术范式的变革——Optimus首次实现了从视频输入到动作输出的完全端到端神经网络控制。这意味着,它不再依赖传统编程中“先识别物体、再规划路径、最后执行动作”的分步逻辑,而是像人类一样,用一个统一的“大脑”直接看懂世界并做出反应。

特斯拉擎天柱2025年投产5000台,成本降至2万美元-有驾

这不仅是机器人动作的升级,更是一次学习方式的根本性转变。过去,机器人需由工程师逐行编写代码来应对特定任务;而现在,Optimus通过海量数据训练,学会了“如何思考”。其核心机制与特斯拉自动驾驶系统FSD高度一致:将摄像头捕捉的像素流直接转化为关节运动信号,跳过中间所有模块化设计。这种架构让系统能够整体优化,而非局部调参,从而在复杂环境中展现出更强的适应能力。例如,在分拣电池的任务中,它的成功率已达95.7%,接近人类工人水平。

特斯拉擎天柱2025年投产5000台,成本降至2万美元-有驾

为何特斯拉选择这条技术路径?答案藏在其多年积累的数据与算力优势中。传统机器人多采用模块化设计,感知、决策、控制各司其职,虽便于调试,但接口之间信息损耗严重,难以应对现实世界的不确定性。而特斯拉走的是“黑箱路线”——用端到端模型打通全链路,让AI从大量真实行为数据中自行提炼规律。比如,人类驾驶员不会通过数学公式计算变道时机,而是凭直觉判断,这种“柔性决策”正是端到端模型试图复现的目标。Optimus正是通过员工穿戴动捕设备远程操控的方式,收集数万小时操作数据,教会自己如何抓取、搬运甚至穿针。

特斯拉擎天柱2025年投产5000台,成本降至2万美元-有驾

这一模式的成功,离不开特斯拉独特的“数据飞轮”。其全球百万辆自动驾驶车队每天产生相当于500年驾驶时长的数据,这些数据不仅用于训练FSD,也反哺Optimus的学习过程。例如,车辆在复杂城市环境中识别行人意图的能力,可迁移至机器人理解人类手势或行为预测。同时,特斯拉自研的Dojo超算平台和FSD芯片为训练提供强大算力支撑,使其能在虚拟环境中模拟数百万次交互,加速学习进程。这种“车—机协同”的技术复用,构成了其他公司难以复制的护城河。

特斯拉擎天柱2025年投产5000台,成本降至2万美元-有驾

然而,端到端并非万能。最大的挑战在于“黑箱”带来的可解释性难题:当机器人出错时,工程师难以定位是视觉识别偏差,还是动作规划失误。为此,特斯拉开发了“生成式高斯溅射”技术,实时重建AI眼中的三维环境,并用小型语言模型生成自然语言解释,辅助调试。另一个瓶颈是实时性——每秒处理20亿个输入令牌并输出精准控制信号,对延迟极为敏感。目前Optimus尚不能奔跑,动作流畅性仍落后于专注运动控制的宇树科技等企业。此外,家庭场景中的精细操作(如捏鸡蛋、熨衣服)虽已实现,但依赖大量遥操作数据,采集成本高昂。

特斯拉擎天柱2025年投产5000台,成本降至2万美元-有驾

外界对此评价两极分化。支持者认为,这是通向通用人工智能的必由之路——更大的模型、更多的数据终将胜出。中信建投指出,Optimus的技术路线有望引领行业向端到端收敛。质疑者则强调,物理世界的容错率远低于软件世界,高延迟与不可预测性可能阻碍落地。目前,英伟达、Figure AI等主流厂商仍采用分层架构,在实时控制与工程稳定性上更具优势。从实际表现看,Optimus在运动能力上尚未超越中国头部机器人企业。

特斯拉擎天柱2025年投产5000台,成本降至2万美元-有驾

尽管如此,特斯拉的商业化路径却异常清晰。2025年,首批约5000台Optimus将投入特斯拉自有工厂,执行电池分拣、工具操作等重复性工作;2026年起对外销售,目标年产5万至10万台;到2029年,年产能计划突破100万台,单台成本压至2万美元。商业模式也已成型:基础功能免费,高级服务如老人护理、儿童辅导采用订阅制,延续其软件高毛利策略。应用场景正从工业向家庭延伸,未来或能完成清洁、做饭、陪护等12项核心家务。

特斯拉擎天柱2025年投产5000台,成本降至2万美元-有驾

这场由端到端驱动的变革,或将重塑机器人产业格局。它不再只是“执行命令的机器”,而是“能理解意图的伙伴”。尽管前路仍有工程难题待解,但特斯拉正以自动驾驶验证过的路径,推动人形机器人迈向规模化落地。当机器学会像人一样“看”和“动”,我们面对的不仅是技术进步,更是一场关于劳动、服务与人类角色的深层重构。

0

全部评论 (0)

暂无评论