何小鹏最近在微博上立下了一个“赌约”:如果到2026年8月30日,小鹏的VLA系统在国内能达到特斯拉FSD V14.2在硅谷的效果,他就在硅谷开个特色中国食堂;
如果没做到,他们的自动驾驶负责人就得去金门大桥裸跑。这个赌约一下子把行业里关于“VLA”和“世界模型”的技术路线之争,摆到了所有吃瓜群众面前。
大家这才发现,原来车企大佬们不仅在拼销量、拼价格,更在拼一个关于汽车“大脑”该怎么长的底层逻辑。
简单来说,VLA就像是让车学会“看图说话然后行动”。它把摄像头看到的画面(Vision),塞给一个类似ChatGPT的大语言模型(Language)去理解,最后输出方向盘、油门刹车的控制指令(Action)。
理想汽车的郎咸朋是这条路的坚定支持者。他前几天还专门发文,回应了机器人公司宇树科技创始人王兴兴对VLA的质疑。
郎咸朋的核心观点是,模型架构本身不是最关键的,最关键的是要有海量的真实数据来喂养它,而理想拥有几百万辆车跑在路上,正好能构建这个数据闭环。
他认为,VLA就是当下实现自动驾驶最好的方案。
但另一边,以华为为代表的公司,却走了另一条看起来更“硬核”的路,他们称之为“世界模型”或者叫WA。
这条路的核心思想是,别让车“看图说话”了,太绕。应该让它直接“看图思考然后行动”。
华为的靳玉志说得更直接,他们认为走VLA是“取巧”,不是真正自动驾驶该走的路。
他们的“世界模型”目标是给车造一个虚拟的“数字大脑”,这个大脑能理解物理世界的规则,比如距离、速度、碰撞后果,能自己预测“如果前面那辆自行车突然左拐,我该怎么办”,然后直接给出控制指令,中间不需要转换成语言描述。
那么问题来了,为什么会有这种分歧?这其实反映了不同公司对“智能”的不同理解,以及他们手头资源的不同。
VLA路线,非常依赖真实世界的数据。你必须有足够多的车在路上跑,收集各种各样的场景,才能让那个“语言模型”学会在什么情况下该做什么。
所以像理想、小鹏这样拥有庞大车主群体的公司,天然倾向于这条路。他们可以用现有车主的数据,快速迭代,让车的驾驶风格越来越像老司机。
而“世界模型”路线,则更像是在创造一个驾驶的“物理真理”。它试图让AI理解开车的底层逻辑,而不是单纯模仿人类司机的操作。
这条路对仿真技术、对构建极度逼真的虚拟世界要求极高,前期投入巨大。但它理论上具备更强的泛化能力,也许能更好地处理那些人类司机都很少遇到的极端危险情况。
华为、蔚来,以及一些专注于Robotaxi(无人出租车)的公司,更看重这条路的长期潜力。
有趣的是,这场争论并不是非此即彼。小鹏汽车在去年11月的AI DAY上发布的第二代VLA架构,就显示出融合的趋势。
何小鹏说,第一代VLA是“V到L再到A”,信息损耗大;第二代变成了“V+L到A”,就是把语言理解的能力更前置,让模型直接用看到的视觉信息来规划轨迹。
更关键的是,小鹏在这个新架构里,引入了一个“世界模型”作为记录器。也就是说,他们在用VLA开车的过程中,同时记录下车辆的状态和决策,用这些数据反过来去训练和完善那个理解物理世界的“世界模型”。
理想的李想也在之前的直播中透露,他们的VLA训练分为三个层面,最后一个层面就是“强化学习”,而这个学习过程,很大程度上是在“世界模型”构成的仿真环境里完成的。
用仿真世界里的规则,比如舒适度、交规、碰撞风险,去反复打磨VLA的决策,让它开得比人类更好。
郎咸朋自己也承认,世界模型对算力要求太高,所以更适合放在云端去做数据生成和仿真训练。
这意味着什么?意味着头部玩家们嘴上可能各执一词,但手里干的事,早就开始“我全都要”了。
VLA像是一个实战经验丰富的“老司机”,通过大量实际路况磨练出了本能反应;世界模型则像一个精通物理和交规的“理论大师”,能从原理上推演最优解。
现在,大家的目标是培养出一个“既懂理论又有丰富实战经验”的超级司机。
自动驾驶的竞争,正在从功能炫技的“上半场”,进入拼底层架构、拼数据效率、拼安全冗余的“深水区”。
2025年,这个分歧被公开化;小鹏把赌约的截止日期定在2026年8月;行业分析认为,到2028年左右,技术架构可能会收敛到一个相对稳定的状态。
这几年的时间窗口,就是各家围绕自己的技术路线,疯狂积累数据、迭代算法、构建壁垒的关键期。
所以,何小鹏的赌约,远不止是一个食堂或者一次裸跑那么简单。它背后是一场关于汽车未来“大脑”形态的豪赌。
赌的是自己的技术路径能更快地通向安全、可靠的自动驾驶,赌的是自己的数据积累和工程能力能支撑起这条路径。而最终受益的,将是每一位在路上的人。
全部评论 (0)