新势力还在争论，特斯拉一开口，都安静了-有驾

特斯拉一开口，国内这些新势力大佬们感觉吵了个寂寞。

过去这一年多，自动驾驶圈子里的口水仗就没停过，主题基本就俩：一个是理想、小鹏他们天天挂在嘴边的VLA，另一个是蔚来、华为高喊的世界模型才是未来。两拨人吵得不可开交，都觉着自己手里的才是屠龙刀，对方拿的最多是把西瓜刀。结果10月25号，一直闷声发大财的特斯拉，他们的AI头头阿肖克·埃卢斯瓦米，在X上发了篇长文，一下子把两边都给说懵了。

讲真，理想MAX版的车主应该是最熟悉VLA这套东西的。你开着智驾，屏幕上不仅显示出车辆识别到了什么，还会用近乎人话的方式告诉你我要往左边走了，因为那边没车，这就是VLA里的L（语言）在发挥作用。听起来很贴心，让用户感觉车子能跟你沟通了。小鹏和元戎启行也是这条路线的死忠粉。

但这套逻辑在蔚来一号位任少卿看来，有点本末倒置。他那个比喻就很形象：语言的带宽太低了。你想想，光靠嘴和耳朵交流，能传递多少信息？开车靠的是眼睛，是视觉，那信息量大得去了。他说现在的VLA，根子上还是个语言模型，只不过头上插了个视觉转换器，先把看到的东西在脑子里翻译成文字，再根据文字去行动。效率太低，而且很多东西，比如拥堵匝道里那种混乱的动态，根本没法用语言完整描述。

所以任少卿他们觉得，真正的自动驾驶，需要的是时空认知，直接在视频流里建立对真实物理世界的理解，这就是世界模型的核心。华为那边也差不多是这个意思，认为开车更需要的是对空间的理解，而不是能说会道。

就在国内两派为了语言和空间哪个更重要吵得面红耳赤的时候，特斯拉那篇长文直接摊牌了：成年人不做选择，我全都要。

他们那个端到端模型，为了不让自己变成一个没法理解的黑箱，搞了两个骚操作。一个是视觉重建，用一种叫生成式高斯泼溅的技术，实时生成一个车辆周围的3D动态世界。这不就是国内公司吹的世界模型么？特斯拉把它叫做神经世界模拟器，可以在云端疯狂跑测试，给车子进行地狱模式的压力训练。

另一个，就是训练一个小型化的语言模型，让AI用自然语言来解释自己的行为。这不就是VLA里的核心语言解释功能吗？FSD v14.x版本里其实已经在运行了。

所以你看，当大家还在争论到底是向左走还是向右走的时候，特斯拉已经左右开弓，把你包围了。端到端是底层基础，VLA是让它能被理解、能沟通的嘴巴，而世界模型则是它认识世界、模拟推演的眼睛和大脑。这三者根本就不是非此即彼的选择题，而是一套组合拳。

这一下就点破了很多人的迷思。比如总有人以为端到端就是之前技术的修修补补，其实根本不是，那是一套完全推倒重来的新体系，代码、思路、验证方式全都得换。卓驭科技的沈劭劼甚至说，直到端到端出现，这个行业才算迎来一次彻底的变革。所以我们才会感觉，用了端到端的车子，开起来人味儿足了很多。

现在压力给到了谁那边，不用我多说了吧？

新势力还在争论，特斯拉一开口，都安静了

全部评论（0）

热门推荐

新势力还在争论，特斯拉一开口，都安静了

全部评论 （0）

热门推荐

全部评论（0）