自动驾驶软件可能已触及技术天花板,但物理人工智能才刚刚起步。
这是小鹏汽车通用智能中心负责人刘先明对当前行业的判断。
2022年,他在通用汽车旗下的Cruise工作,曾见证无人驾驶出租车在旧金山零接管运行。
当时他与同事谈起这种成就,内心充满骄傲。
不久后,OpenAI发布了ChatGPT。
这款产品展现出的智能程度,让刘先明深受震动。
他意识到,或许不需要编写成千上万条规则,也不需要为车辆安装沉重的激光雷达,智能驾驶也能涌现出真正的智能。
2024年初,刘先明带着这种思考加入小鹏。
他与何小鹏第一次见面时,心中暗自设立了底线:如果对方听不懂他的技术路径,他便不会入职。
如今,他不仅统管小鹏的智驾与座舱业务,还成了公司研发支出最高的人。
2025年,在45亿元的AI研发预算中,他管理的业务占据了最大份额。
何小鹏曾公开表示,每月投入3亿元去赌这一方向,内心压力巨大。
这笔巨额投入,是为了研发第二代视觉-语言-动作模型,简称VLA。
这一模型的核心逻辑在于“拆掉中间环节”。
以往的自动驾驶模型,往往需要将摄像头捕捉到的画面先翻译成语言,再由语言模型理解后输出驾驶动作。
这个过程存在信息瓶颈,且耗时较长。
刘先明团队决定自研基座模型,让系统直接从视频数据学习驾驶动作。
他们去年5月进行了一次尝试,仅仅花了三周时间,便将推理链路中的语言翻译环节移除。
测试结果显示,模型表现不仅没有下降,反而因为减少了延迟而变得更加实时。
这种技术路线追求的是极致的简单。
刘先明认为,物理人工智能的本质是与真实世界交互,处理非结构化的信息并直接输出动作。
这与人类开车时无需“在脑中翻译”的直觉行为非常相似。
为了实现这一目标,团队不得不放弃一些传统的辅助手段。
他们决定不再依赖人工编写的规则来修正模型错误。
虽然规则能解决短期问题,但它会掩盖模型自身的缺陷,阻碍系统的进化。
在数据获取方面,简单的堆砌并不可行。
刘先明指出,互联网上的文字数据虽然丰富,但物理AI更依赖于真实物理世界采集的车辆数据。
数据收集需要像采样器一样密集且随机,覆盖各种极端场景。
目前,小鹏的整体数据存储量已达到50PB左右。
团队通过影子模式持续回传高质量数据,不断扩充模型的认知边界。
面对模型在极端场景表现不佳的问题,他们倾向于通过强化学习来优化,而非加装“补丁”。
为了验证技术路径的有效性,小鹏第二代VLA模型已经完成了从喀什到上海的横穿中国测试,行程5000公里,单次最长0接管里程达1360公里。
刘先明并不认为目前的系统已经完美,他给这版模型打分6分。
他依然需要时间来解决极端路况处理以及无地图导航下的泛化能力。
这种对技术路线的坚持,离不开何小鹏的信任。
刘先明坦言,在项目进展缓慢、甚至连他自己都不敢回国面对老板的时候,何小鹏从未给予过多的责备。
这种宽容换来的是团队对技术方向的统一认知。
如今,小鹏的智驾团队已不再单纯依赖写规则的工程师,而是转向支持大规模数据训练与基础设施建设。
在刘先明看来,只要方向正确,保持极高的迭代速度,物理人工智能的未来将远超目前的自动驾驶范畴。
这不仅是一场技术的博弈,更是一次关于组织效率与工程化能力的全面重构。
全部评论 (0)