我曾经在某个光线昏暗的工厂,偷偷盯着那台满载零件的物流车。销售小哥拍拍我:你觉得这车能靠VLA走得远吗?我一愣,心想,这问题还真不好答。
现在行业的局势挺有意思。开始我还真觉得VLA(视觉-语言-动作)技术是未来的王者。数据显示,理想和小鹏在2024年都把VLA当成信仰。理想推司机大模型,小鹏端出20Hz架构,表面上看,技术挺牛逼的。可转眼到2025,局面就变了。华为的世界模型技术,声称才是真正的终局。
我估算,VLA的算力需求大概在13到20 EFLOPS(体感,估算别人都说的范围),基础要用几百亿的芯片算力,才能保证数据流畅。比方说,理想用的云端集群,消耗的电力也不低。前几天随手翻了点笔记,居然发现每个模型的训练成本要上千万(这段先按下不表)。中小企业根本吃不消,设备、数据、算力都压得他们喘不过气。
对比同价位的自动驾驶方案,VLA喜欢用视觉-动作+语言的套路,想让机器像人一样理解场景。可实际上,很多关键判断还在靠模仿和撞运气。就像我问:这车为什么突然刹车?销售只能说:模型认识到危险,并做了反应。没有详细解释,就像一个会演戏的演员,但是小幕后的逻辑谁也不知道。
但我一直在想,VLA的优势是不是被高估了?真能泛化到所有复杂场景?我刚才翻了下相册,看到的是去年某次测试的场景录像,雨天、施工区、突发行人横穿……那机器反应其实还挺慢。其实这也让我提问:长尾场景的训练数据,怎么才能够够用?长尾数据的沉淀,估算要再花几亿、还得一年多。中小车企没有大数据,也买不起。我在想:要不是靠撞过的场景逐渐学会,这些模糊判断难不成还得靠猜?(这段话我自己都觉得有点无奈)——但,这是不是就是技术的瓶颈?
我还意识到,技术的资金+数据+硬件原本就像建房子。没有一项能少。就算我用最好的语音+视觉插件,芯片没有带宽、算力不够,也打水漂。理想那13EFLOPS的云端平台,成本其实很高。一个模型正常运行,对硬件的需求就是每秒10帧,也就是说,每秒只能处理10个动作(这段先扯开)。想让它跑得更快,还要更大的算力、更宽的芯片带宽。
说到地方,有些领导的小谈话让我觉得技术路线其实还挺复杂。小鹏强调微型VLA,论调是端到端就行。我倒觉得,真正意义上的VLA,参数得大一些,数据也得多,所以微型的还是闭门造车;华为则偏爱世界模型,留意点就是他们强调空间理解比单纯语言模型更重要,毕竟汽车飞快地转向、变道,不光要听,还得看得懂。你们会不会觉得,VLA是不是只是一场资源的赌局?
我知道,有几个同行私底下议论,VLA能撑多久?是不是阶段性工具?——我也有点迷糊。未来几年,行业分水岭其实就在于:谁能用有限资源,把体验切实做出来。比如理想的车,要真表现在城市复杂路况的反应能力;而华为的世界模型,则可能在暴雨、夜晚场景中更胜一筹。
我前阵子跟一位朋友说起,摩托车修理工随口说:阿哥,规则一变,师傅就得不停换技能。这句话其实很贴切:这场VLA与WA(世界行动)路线的博弈,就像两场不同的技术战。理想、小鹏押注深度语言理解,在泛化和长尾场景上下功夫,而华为、Momenta则坚守空间感和物理规则,他们赌一场模型的稳定性。
现在的核心疑问就是:到底VLA能不能成为行业终局?我试想,假如VLA能在2025年Q2实现城市L3真降误,理想借此掌握AI汽车的基座,那他们的市场是不是就稳了?反之,要是华为的世界行动技术率先成熟,把无保护左转乃至夜间零接管搞定,那安全第一的铁律可能又会压倒一切。
我自己觉得:无论路线怎么走,资源才是王道——不只是钱,还要时间、数据、芯片。你们有没有觉得,像芯片厂商那样,给每款车配千卡锁价的策略,其实也是在赌资源的稀缺性。中小车企害怕芯片荒,就像你去超市抢衣服,那个溢价不过是市场的博弈信号。
说到这我突然卡壳了,你有没有想过,未来这场技术赌局会不会变成资源控制的战场?谁掌握了算力和数据,就能决定行业的节奏。其实我一直在琢磨:这条技术路线除了花钱,你还得不断自己跑偏,否则就会被人甩得远远的。
我觉得,行业的未来没有一条绝对的铁律。没有高下之分,只有适合不适合。像我经常想的,既然很多核心场景都还在实验室里打转,到底义不意味着终局已经确立?或者,只是短暂的技术过渡?
这些技术背后,隐藏的还是一场资源和信仰的较量。你在想,不知道这个时代的车会越来越像人,还是人渐渐变成了机器?
(这段话我自己都没想清楚)或许,等我下次开车,注意点那个突然蹿出的小狗,可能就能给我一点线索。
你觉不觉得,真正打动人的,是那个细节?那块挡风玻璃上的雨水滑落,似乎比任何技术方案都真切。
全部评论 (0)