专访小鹏汽车刘先明：押注 “极简模型”，我耗费全公司最多的资金-有驾

自动驾驶软件可能已触及技术天花板，但物理人工智能才刚刚起步。

这是小鹏汽车通用智能中心负责人刘先明对当前行业的判断。

2022年，他在通用汽车旗下的Cruise工作，曾见证无人驾驶出租车在旧金山零接管运行。

当时他与同事谈起这种成就，内心充满骄傲。

不久后，OpenAI发布了ChatGPT。

这款产品展现出的智能程度，让刘先明深受震动。

他意识到，或许不需要编写成千上万条规则，也不需要为车辆安装沉重的激光雷达，智能驾驶也能涌现出真正的智能。

2024年初，刘先明带着这种思考加入小鹏。

他与何小鹏第一次见面时，心中暗自设立了底线：如果对方听不懂他的技术路径，他便不会入职。

如今，他不仅统管小鹏的智驾与座舱业务，还成了公司研发支出最高的人。

2025年，在45亿元的AI研发预算中，他管理的业务占据了最大份额。

何小鹏曾公开表示，每月投入3亿元去赌这一方向，内心压力巨大。

这笔巨额投入，是为了研发第二代视觉-语言-动作模型，简称VLA。

这一模型的核心逻辑在于“拆掉中间环节”。

以往的自动驾驶模型，往往需要将摄像头捕捉到的画面先翻译成语言，再由语言模型理解后输出驾驶动作。

这个过程存在信息瓶颈，且耗时较长。

刘先明团队决定自研基座模型，让系统直接从视频数据学习驾驶动作。

他们去年5月进行了一次尝试，仅仅花了三周时间，便将推理链路中的语言翻译环节移除。

测试结果显示，模型表现不仅没有下降，反而因为减少了延迟而变得更加实时。

这种技术路线追求的是极致的简单。

刘先明认为，物理人工智能的本质是与真实世界交互，处理非结构化的信息并直接输出动作。

这与人类开车时无需“在脑中翻译”的直觉行为非常相似。

为了实现这一目标，团队不得不放弃一些传统的辅助手段。

他们决定不再依赖人工编写的规则来修正模型错误。

虽然规则能解决短期问题，但它会掩盖模型自身的缺陷，阻碍系统的进化。

在数据获取方面，简单的堆砌并不可行。

刘先明指出，互联网上的文字数据虽然丰富，但物理AI更依赖于真实物理世界采集的车辆数据。

数据收集需要像采样器一样密集且随机，覆盖各种极端场景。

目前，小鹏的整体数据存储量已达到50PB左右。

团队通过影子模式持续回传高质量数据，不断扩充模型的认知边界。

面对模型在极端场景表现不佳的问题，他们倾向于通过强化学习来优化，而非加装“补丁”。

为了验证技术路径的有效性，小鹏第二代VLA模型已经完成了从喀什到上海的横穿中国测试，行程5000公里，单次最长0接管里程达1360公里。

刘先明并不认为目前的系统已经完美，他给这版模型打分6分。

他依然需要时间来解决极端路况处理以及无地图导航下的泛化能力。

这种对技术路线的坚持，离不开何小鹏的信任。

刘先明坦言，在项目进展缓慢、甚至连他自己都不敢回国面对老板的时候，何小鹏从未给予过多的责备。

这种宽容换来的是团队对技术方向的统一认知。

如今，小鹏的智驾团队已不再单纯依赖写规则的工程师，而是转向支持大规模数据训练与基础设施建设。

在刘先明看来，只要方向正确，保持极高的迭代速度，物理人工智能的未来将远超目前的自动驾驶范畴。

这不仅是一场技术的博弈，更是一次关于组织效率与工程化能力的全面重构。

专访小鹏汽车刘先明：押注 “极简模型”，我耗费全公司最多的资金