特斯拉一开口,国内这些新势力大佬们感觉吵了个寂寞。
过去这一年多,自动驾驶圈子里的口水仗就没停过,主题基本就俩:一个是理想、小鹏他们天天挂在嘴边的VLA,另一个是蔚来、华为高喊的世界模型才是未来。两拨人吵得不可开交,都觉着自己手里的才是屠龙刀,对方拿的最多是把西瓜刀。结果10月25号,一直闷声发大财的特斯拉,他们的AI头头阿肖克·埃卢斯瓦米,在X上发了篇长文,一下子把两边都给说懵了。
讲真,理想MAX版的车主应该是最熟悉VLA这套东西的。你开着智驾,屏幕上不仅显示出车辆识别到了什么,还会用近乎人话的方式告诉你我要往左边走了,因为那边没车,这就是VLA里的L(语言)在发挥作用。听起来很贴心,让用户感觉车子能跟你沟通了。小鹏和元戎启行也是这条路线的死忠粉。
但这套逻辑在蔚来一号位任少卿看来,有点本末倒置。他那个比喻就很形象:语言的带宽太低了。你想想,光靠嘴和耳朵交流,能传递多少信息?开车靠的是眼睛,是视觉,那信息量大得去了。他说现在的VLA,根子上还是个语言模型,只不过头上插了个视觉转换器,先把看到的东西在脑子里翻译成文字,再根据文字去行动。效率太低,而且很多东西,比如拥堵匝道里那种混乱的动态,根本没法用语言完整描述。
所以任少卿他们觉得,真正的自动驾驶,需要的是时空认知,直接在视频流里建立对真实物理世界的理解,这就是世界模型的核心。华为那边也差不多是这个意思,认为开车更需要的是对空间的理解,而不是能说会道。
就在国内两派为了语言和空间哪个更重要吵得面红耳赤的时候,特斯拉那篇长文直接摊牌了:成年人不做选择,我全都要。
他们那个端到端模型,为了不让自己变成一个没法理解的黑箱,搞了两个骚操作。一个是视觉重建,用一种叫生成式高斯泼溅的技术,实时生成一个车辆周围的3D动态世界。这不就是国内公司吹的世界模型么?特斯拉把它叫做神经世界模拟器,可以在云端疯狂跑测试,给车子进行地狱模式的压力训练。
另一个,就是训练一个小型化的语言模型,让AI用自然语言来解释自己的行为。这不就是VLA里的核心语言解释功能吗?FSD v14.x版本里其实已经在运行了。
所以你看,当大家还在争论到底是向左走还是向右走的时候,特斯拉已经左右开弓,把你包围了。端到端是底层基础,VLA是让它能被理解、能沟通的嘴巴,而世界模型则是它认识世界、模拟推演的眼睛和大脑。这三者根本就不是非此即彼的选择题,而是一套组合拳。
这一下就点破了很多人的迷思。比如总有人以为端到端就是之前技术的修修补补,其实根本不是,那是一套完全推倒重来的新体系,代码、思路、验证方式全都得换。卓驭科技的沈劭劼甚至说,直到端到端出现,这个行业才算迎来一次彻底的变革。所以我们才会感觉,用了端到端的车子,开起来人味儿足了很多。
现在压力给到了谁那边,不用我多说了吧?
全部评论 (0)