对话小鹏副总裁魏斌:大算力芯片上车后,智能座舱的大创新终于要来了

在车载导航和语音助手之后,智能座舱领域的大创新已经许久未见。

一些车企尝试把手势操控、AI 绘图等功能放到车上,但只是昙花一现。用户用了几次就放在了一边。

“对整个系统来说,上这种功能越多,包袱就越多。” 在小鹏副总裁、互联网中心负责人魏斌对《云见 Insight》说。

在他看来,无论是大屏、语音、手势操控还是物理按键,最终只是人与车交互的手段,只有和用户的实际需求相结合才能创造价值。

“用户其实是又懒又聪明的,他会下意识去选最低成本、最高效、最好用方式。” 魏斌说。

过去几年,他认为智能座舱的迭代节奏越来越像智能手机,在底层能力没有显著变化的情况下,只能不断在产品体验上 “小修小补”。

大算力、大模型上车,为创新提供了基础条件。6 月初,小鹏发布了 3 颗图灵芯片的技术架构,其中 2 颗芯片用于智能辅助驾驶,还有一颗用于智能座舱。

之前,市场上主流产品的座舱普遍基于高通 8295 芯片,算力为 30 Tops。高端车型搭载双 NPU 的高通 8295P 芯片,算力也只有 60 Tops。

而小鹏自研的图灵芯片,1 颗的有效算力为 700 Tops,再加上一颗高通 8295 芯片,整体算力是主流技术架构的 26 倍。

仍然保留高通的芯片,是因为其对应的安卓系统有丰富的软硬件生态。座舱里的应用程序很多是从手机迁移到车机,对安卓生态有强依赖。而图灵芯片基于 Linux 系统,适配座舱应用的成本很高,且做不出差异化。小鹏希望把研发资源聚焦到 AI 上。

图灵芯片的角色是座舱的 “大脑”,上面跑着百亿参数级别的 VLM 模型(Vision Language Model,视觉语言模型),结合中后台的感知系统,为用户提供 “AI 助理” 一般的服务。

传统的语音助手基于工程师编写的规则,只能对用户提出的需求进行简单、被动地响应;而基于多模态大模型的 AI 助理能够敏锐体察到用户的潜在需求,主动与用户沟通并提供服务,整个过程更加拟人。

举个例子:在下雨天,传统语音助手只会等用户下达指令后调节空调或车窗;而 AI 助理会实时感知环境,并根据用户的个性化记忆做决策。比如主动把空调调节到适宜的温度,在必要时开启前窗除雾功能,并在用户下车前提醒他们留意脚下的积水。

AI Agent 在座舱场景中的应用是行业里的一个普遍共识。在小鹏之前,也有一些公司提出过类似设想,但其方案对于多模态信息的融合并不彻底,且部署在云端。

小鹏去年也用云端的小模型替换了自然语义理解和处理的模块,但只能理解一些稍微复杂的指令,魏斌说,他认为图灵芯片和 VLM 模型上车,会让产品领先一个 “代际”。

小鹏的 VLM 模型是在云端训练后,通过 “模型蒸馏” 等技术 “变小”,再部署到车端的。

去年小鹏开始布局 AI 基础设施,用 10 EFlops 算力在云端搭建了一个 “模型工厂”,训练世界基座模型。

在不久前的 CVPR 会议上,小鹏世界基座模型负责人刘先明透露,小鹏通过持续向基座模型 “投喂” 更大规模的训练数据,从 10B 到 72B,模型的参数越大、学习的数据越多,性能越强,验证了规模法则(Scaling Law)在自动驾驶 VLA 模型(Vision-Language-Action,视觉语言动作模型)上的持续生效。

魏斌说,VLM 模型在云端的参数量也有 72B,只是训练数据和方法与 VLA 模型不同。在车端,由于座舱对于实时性的要求没有智能驾驶那么高,因此模型的参数量会更大一些。

VLM 模型整合了语言和声音、图像等多模态信息,因此除了大脑,还需要 “耳朵”(Audio Encoder)和 “眼睛”(Vision Encoder)。

魏斌说,小鹏的座舱与智能驾驶的感知系统打通,能够调用车外传感器的数据。在车内,小鹏部署了 OMS(Occupant Monitoring System,乘客监测系统),相当于一个车内摄像头,用于观测舱内成员的需求。比如当后排有人睡着了,自动把导航播报调成头枕,媒体音量调低,空调的风向避免正对人脸。

这是多模态座舱必不可少的信息输入。由于算力和模型都在本地,不需要上传到云服务器,因此相比于现有的云端模型能更好地保护隐私。

“用户对于隐私是高度在意的。如果没有端侧芯片,把这些数据上传到云,用户对于隐私的担忧,包括它的合规性都会有巨大挑战。” 魏斌说。

在车端完成数据闭环的的另一个好处是,可以不受网络信号的影响,断网时也能使用完整的功能,也因此能在全球快速部署。

对于这一代技术架构,魏斌说,他有信心在行业里 “绝对领先”。但从绝对领先的技术架构,到绝对领先的产品体验,还需要克服很多挑战。

包括将碎片化的场景和数据整合好,让模型结构化地理解和学习;提高模型的通用性;打通第三方业务合作伙伴,建立更深入的合作机制;对用户个性化偏好的整合;通过座椅、空调、声音、氛围灯的全车联动,组合成真正有价值的、智能的产品体验。

整个工程链路还有一大堆问题需要解决。

魏斌没有太多的时间。今年三季度,这套系统就将在小鹏 G7 的图灵版上首次推送。

但智能汽车的优点就在于,可以不断迭代。魏斌说,他希望用一年时间,把智能座舱的体验做到 “断层” 领先。这也是小鹏内部的一个 明确的预期。

因为最终,用户只会为了好的体验买单。

对话小鹏副总裁魏斌:大算力芯片上车后,智能座舱的大创新终于要来了-有驾

以下是《云见 Insight》与小鹏副总裁、互联网中心负责人魏斌的对话:

图灵负责 AI,高通负责生态

对话小鹏副总裁魏斌:大算力芯片上车后,智能座舱的大创新终于要来了-有驾

云见 Insight:小鹏发布了三颗图灵芯片的技术方案,其中两颗给自动驾驶,还有一个给智能座舱。座舱的这颗芯片是干嘛用的?

魏斌:我们内部也管它叫座舱大脑或座舱助手,希望能发展为座舱助理这种角色。

云见 Insight:你们的座舱里除了图灵芯片,还有一个高通 8295,这两个芯片各自负责什么?

魏斌:座舱保留高通的 8295 芯片核心在于对应上层的软件,安卓体系的软硬件生态比较成熟,有大量的生态应用,不需要独立开发。比如基础的交互生态应用,语音交互能力。座舱大脑这颗芯片核心服务于 AI 或大模型这种密集计算类的业务和应用。

云见 Insight:如果直接用高通的芯片,算力不够吗?

魏斌:对,核心是算力上的要求。行业里基于高通 8295P 的有大概 1B 到 3B 左右参数量模型的应用,这是不及我们预期的。

我们预期座舱大脑能承载百亿参数的大模型,比市面上现行的规模大几倍。这也是最早跟小鹏(小鹏汽车董事长、CEO 何小鹏)讨论需要一颗独立的芯片服务于座舱大脑的原因。

云见 Insight:百亿参数量对应的算力是多少?

魏斌:这看怎么用。单个图灵芯片大概 700 Tops ,我们基本能用满。

云见 Insight:智驾和智舱的需求不太一样。智能驾驶对于稳定性、可靠性这些要求更高,座舱似乎并不需要?

魏斌:智驾有关于安全性的算力冗余的部分,对于座舱而言,必要性没那么强。(我们)芯片的架构(设计)之初,也有考虑大模型应用,所以是通用的。

云见 Insight:未来会考虑把高通这颗芯片拿掉吗?

魏斌:我们可能会长期保留。(因为)它的软硬件体系的结合以及对应的丰富生态,我们认为在这个阶段没有必要根据自研芯片独立做一套,这里面有巨大的投入,整个投资回报率比较低。

你做了一块芯片,它只是硬件。软硬结合要从最底层的驱动,包括整个安卓系统做一些适配,包括对应整个工具链,所有的调试工具,以及稳定性、安全性,方方面面都要考虑。现在来看,我们不认为在传统座舱的基础体验层面能跟竞争对手形成明显的差异,所以我们不认为在这个领域花大力气去投入有足够价值。

云见 Insight:举个例子,如果用小鹏自己的图灵芯片做一个 “ QQ 音乐” 的 app,中间需要哪些步骤?

魏斌:我们的基础操作系统是 Linux,要去找 “ QQ 音乐” 合作,(问他们)能否提供基于 Linux 的版本,得看生态厂商愿不愿意配合去做这件事。

车载领域大部分应用都是基于安卓体系的,因为有之前手机体系的基础,整个迁移过来成本会低得多。

除了生态软件适配以外,小鹏也要提供基础操作系统。比如围绕 Linux,要给软件厂商提供对应的 SDK(Software Development Kit,软件开发工具包), 要给它 API (Application Programming Interface,应用程序编程接口)的手册。现有厂商里面,大量成熟的可能也就是基于 Windows 、MacOS,或者 Android 的应用。

眼睛 + 大脑

对话小鹏副总裁魏斌:大算力芯片上车后,智能座舱的大创新终于要来了-有驾

云见 Insight:介绍一下你们的 VLM 模型,它的技术原理和参数?

魏斌:我们预期将来小鹏汽车会有自己的 “座舱大脑”,能深度理解用户的需求,基于中后台的感知(系统),对用户潜在的需求进行主动服务,这是大的业务逻辑。我们希望有一天让用户感觉副驾上坐了一个真正的助理,能帮用户处理用车过程中的一系列需求。

从技术层面,我们希望在车端跑百亿规模参数的大模型。这个参数量是当前行业第一,而且是通过小鹏自研芯片达到的,相比当前 1B 到 3B 参数量的模型应用有显性的领先。

基于 Scaling law(规模法则),参数量越大,算力或数据越大,模型能力越强,对于用户需求的理解及整个体验就会比以往更好。

举个例子,我们现在的车都有自动挡空调,但今天没有一个用户非常满意。将来座舱大脑上车以后,我们核心目标是让它变成智能空调。就像北京现在外面下雨,车内车外温度的差异,可能造成前车窗有雾,车内的空调温度应该实时调节甚至是关闭。

有了座舱大模型以及多模态感知体系以后,我们能拿到外界的温度变化,车身的实时空调参数变化,以及舱内 OMS 可能会看到乘客的衣着薄厚,这时候空调自动为你调整。

因为端侧大模型上车,我们能将这种频率提到秒级。我们希望有一天用户在用小鹏汽车的时候,不用太关注空调的存在,它能在不同环境下自动提供实时温度。

云见 Insight:今天的系统为什么没做到这一点?

魏斌:有几个方面,第一,它没有综合的感知能力,比如车外的温度参数,只是拿到一些温度数据本身,没有经过复杂的计算,根据用户的需求得出一个最终结果。所以第一感知能力不强,第二计算能力不够强。所以今天的空调逻辑都是相对简单、基于规则实现的,并不能达到用户预期。比如北方这种秋冬和春秋换季,我到了五六月份会手动打开车里的空调,一般是不开空调的,只用通风功能就可以了。

云见 Insight:前面说的 OMS 在这个产品创新里起到什么作用?

魏斌:你可以理解为它是一个摄像头,就是车内的眼睛,观察车内的变化。比如后排是不是有人睡觉?如果睡觉的话,是不是自动将后排或者整车音量降低?以及适当调整空调的温度?

我们希望它像人一样,有很强的逻辑思维、决策判断能力,以及很强的感知能力。因为(它)跟人的决策逻辑是一样的,我通过五官知道外界变化是什么,依靠大脑来决策此时此刻要做什么。

云见 Insight:你们怎么解决隐私的问题?

魏斌:这是我们上端侧芯片的一个核心考虑,就像刚才讲的 OMS ,因为它能洞察到车内变化,而用户对于隐私又是高度在意的。如果没有端侧芯片,那就要把这些数据上传到云。一旦上云,用户对于隐私的担忧,包括它的合规性都会有巨大挑战。所以这也是我们上端侧芯片的一大考虑,就是所有 OMS 相关内容、视频应用都在端侧,在车内就解决掉了。

云见 Insight:这个数据你们也没有是吗?

魏斌:对。我们也不需要,只在车内处理就可以了。

云见 Insight:这种技术是不是比较成熟了,直接从供应商采购成本更低?

魏斌:其实用传统的 CV 小模型(Computer Vision Model,计算机视觉模型)只能做一些基础的标准动作检测,但未来我们希望 OMS 转变为车内的眼睛,对于泛化场景的要求会高得多,所以只靠传统供应商的能力不可以。我们整个模型应该是 OMS 加 VLM 组合去体现它的价值。

云见 Insight:一个是眼睛,一个是大脑。

魏斌:对,眼睛只是感知能力之一。像车身所有的传感器数据,包括我们会跟自动驾驶(部门)共建车外情景的图像感知,都在增强它的感知能力。

云见 Insight:车外的图像感知是用来干嘛的?

魏斌:比如用户在路边停车,周边有积水。这时候我们可以主动提醒用户:车外有水,你需要稍微小心一些。

云见 Insight:还有一个功能,识别前方的车是什么车?

魏斌:这个小鹏去年做过,但说白了,这个东西有它的价值,但没那么大。我们更希望聚焦于大脑和比较强的感知能力上车以后,让用车变得越来越舒适。

云见 Insight:这个产品一直有车企在做,但是现在都没做好,这是为什么?

魏斌:核心是给到大模型的数据是不是足够充分,有没有足够的东西来帮大模型做出决策。

云见 Insight:马路上跑着什么车,这个数据从哪来?

魏斌:从一些公共数据,比如用汽车之家的就可以了。

云见 Insight:那应该大家已经把体验做得很好才对,为什么现在识别得不准?

魏斌:核心是这个场景的价值大小。就像去年大模型最热的时候,什么 AI 绘图上车,换壁纸这些功能上车,只是昙花一现就过去了。核心在于对长期价值的判断,以及跟用车场景的结合到底够不够大。你说在车上可以绘画吗?可以。但问题是,我们有多少机会或多高频率,在车里面做这个东西?我在家里面用 iPad、用手机感觉会更好。

导航语音播报也不需要了

对话小鹏副总裁魏斌:大算力芯片上车后,智能座舱的大创新终于要来了-有驾

云见 Insight:你们判断座舱里排名前五的高频刚需是什么?

魏斌:其实除了行车安全外,最核心的就是导航、音乐。所以未来更智能的导航、音乐或者这种媒体类内容消费,也是重要的一个发力方向。

云见 Insight:更智能的导航什么样?

魏斌:比如通勤场景里大概率不需要导航引导,可能更关心路况,到底走哪条路线?拥堵情况如何?未来能不能直接帮你选(合适的)那条路。

其实用户需要的不是导航,是整个通勤线路的概览信息,以及对这些信息的分析结论。这是未来结合大模型,结合地图厂商,汽车厂商需要去探索的。

云见 Insight:地图厂商需要提供给你们什么?

魏斌:现在的导航依赖于地图厂商的 SDK,它提供了标准能力,比如说选择终点、规划导航,很难获取更多信息。下一阶段,需要汽车厂商跟地图厂商深度合作,过程中通过 MCP (Model Context Protocol,大模型上下文协议),最终应该是通过 A 2 A (Agent to Agent,两方的 AI Agent 直接对接)的方式来完成这种对接。

比如关于通勤路线的路况如何,可能画了三条路线,告诉对方的 Agent,这三条路线的通行成本怎么样?你返回这些内容,然后我们这边处理以后告诉用户,走哪条路更合适。甚至它可以直接告诉我走哪条路更合适,通行成本或代价是什么样的。

云见 Insight:你们这边的 Agent 是你们的 VLM 模型,图商那边有 Agent 吗?什么时候能实现 A to A 的对接?

魏斌:将来我认为跟第三方应用之间应该都是 Agent to Agent 方式去协作。

时间没有准确的预判。我们看到更多的生态应用已经向 MCP 这种协议封装的方式做了,但是真正往 A to A 的方式,需要第三方厂商对应的大模型能力建设跟业务做高度匹配,这可能需要时间。

云见 Insight:三年以内我们能看到的更好的导航体验是什么?对应的合作模式是什么?

魏斌:现在都是基于标准 SDK,从出行导航层面,分了巡航或导航模式。巡航是去熟悉的地方,导航是去陌生的地方,都是基于标准 API 完成的。未来借助整车交互体系的变化,以及 AR HUD 这种新设备,(可能会)通过 AR HUD 更简洁地透出给用户。在我看来,可能将来对于导航语音播报的需求也许会有一些降低,因为我们有更直观的交互设备。

我们看到大部分老司机在慢慢降低对语音播报的需求,甚至有的把导航播报关掉。未来 AR HUD 上车,我们能把导航场景下的关键信息直接投到他眼前,可能就不需要语音播报来告诉用户怎么走了。

云见 Insight:你们的 AR HUD 为什么和华为合作?

魏斌:我们希望强强联合。华为在光机硬件层面有更强的技术积累。小鹏在座舱体验、导航、软件层面有更深的积累。我们希望做出不一样的东西。前年跟华为定点之初,我们就达成了一致。这一代 AR HUD 出来以后,比市面上常规的产品都要好。有时间你也可以去我们的 G7 上体验一下。

云见 Insight:我在 M9 上体验过,你们是同一个产品吗?

魏斌:不是同一个产品,光机硬件我们是基于最新的产品,会有一些领先。软件上,我们的座舱团队有部分成员是做导航的,对于地图导航有更深的理解,所以对于 AR 导航做了大量摸索和创新。最终形成基于 AR 车道级的导航产品,我们认为这应该是人开车场景下一个终局的产品形态。

云见 Insight:我发现有一个头部效应,就是你跟华为合作一个什么东西,最后做好了,大家会觉得是华为做得好。

魏斌:没关系,不管华为做得好不好,只有上了小鹏的车,才能得到体验。其实你体验过 M9 的,回头再去体验 G7 ,会发现其实在 AR HUD 上完全不是一个产品。包括发布会结束以后,跟我们合作的华为同事也非常高兴,他们也认为跟小鹏合作能做出不一样的东西。

1 个基座,2 个模型

对话小鹏副总裁魏斌:大算力芯片上车后,智能座舱的大创新终于要来了-有驾

云见 Insight:小鹏的 VLA 模型是在云端训练之后 “蒸馏” 部署到车端的, VLM 模型是怎么训练?

魏斌:其实类似,它整个体系没有本质差异。训练数据肯定是不一样,因为面向的场景完全不同,一个面向智驾,看到更多是外部道路、外部感知数据。对于座舱而言,我们的外部视觉依赖智驾的 VLA 能力,座舱是内部的。也会看到所有的图、数据资料,包括用户的用车习惯,这种训练数据完全不一样。

云见 Insight:小鹏在云端训练了一个 720 亿参数量的基座模型。这个基座模型是针对自动驾驶的,还是座舱也用?

魏斌:VLM 用的也是 72B 的模型。智驾模型从云端蒸馏到车端会更小,因为 VLA 和 VLM,一个是类似于快思考,一个类似于慢思考。

智驾更类似于快思考,它对于外界变化需要做出实时响应,需要更高效、更快捷,基本是毫秒级去完成任务。但对于座舱而言,更在意它的需求洞察、逻辑的合理性,以及是否达到用户预期。它的思考周期会长,更类似于慢思考的逻辑。就像空调,比如一秒帮用户去轮询一次,我们认为是 OK 的,但对于智驾而言,它的效率要求会更高得多。

云见 Insight:所以小鹏是在自研的基座模型的基础上,又长出了一个 VLM 模型、一个 VLA 模型?

魏斌:可以这么理解,本质上都是一个基座,只不过业务不同、数据不同、训练方法不同。

云见 Insight:理想也用过 VLM 模型,但是用在智能驾驶上,和它们的端到端模型一起。它们管端到端叫快系统,VLM 叫慢系统。它的下一代技术用 VLA 取代了这两个系统。

魏斌:不是特别一样,我们为什么用 VLA 和 VLM 组合?这里面核心场景不同。智驾需要对外界实时变化做出及时高效的响应。而舱内用户需求场景里面,不需要那么高的实时性,但是场景的复杂度更高。所以我们认为这两块业务应该长期并行。

云见 Insight:你们的 VLM 模型预计什么时候能上车?

魏斌:今年三季度左右你能看到上车的版本。G7 包括后面要发的一些新车的图灵版本,都是 VLA 加 VLM 组合,但可能不同业务上车的节奏有一些区别,后面也会快速迭代。我们已经有比较详细的计划。

云见 Insight:VLM 模型上车之前,你们的 “你好,小 P” 是怎么做的?

魏斌:我们从去年开始,整个传统语音交互里面,云端的 NLU(Natural Language Understanding,自然语言理解)、 NLP (Natural Language Processing,自然语言处理)部分已经完成大模型的替换,所以已经能完成一些复杂指令的理解。但是它强依赖于云端模型,端侧目前更多还是做一些基本语义的理解,偏向于规则和小模型算法一些。我们希望以后上了大模型后,不依赖于互联网请求服务的在车端可以完成,比如说车身控制的指令和主动交互。

云见 Insight:以后断网的时候能够使用完整的功能吗?

魏斌:可以完成大部分功能。比如请求云服务,播一个歌,肯定还是需要(网络)。但大部分本地需求不依赖于云端服务,靠端侧大模型都能解决。

一年后,在体验上拉开差距

对话小鹏副总裁魏斌:大算力芯片上车后,智能座舱的大创新终于要来了-有驾

云见 Insight:VLM 模型上车之后,它的体验一定会比之前好吗?

魏斌:我们相信,它带来的智能化体验相比以往会有显性提高,这是一个比较明确的预期。因为以往这种车端体验更偏被动式,就是你发出一个请求,然后车端理解你的需求,做出响应。未来 VLM 上车以后,它能根据不同的场景,把相关需求做主动分析,主动呈现。

比如迎宾环节:上车的一刻,你的座椅、空调这些都帮你自动调整,甚至你上次听什么的歌,今天头条新闻上有什么,大模型可以帮你去处理,而不需要你一个请求、一个请求去做。

说白了,大模型上车以后,这种情感化、拟人化,包括未来的多语言、多语义、多口音问题,包括整个自由对话的能力,会比现阶段的传统模型效果好得多。

云见 Insight:可不可以说,联网的时候大家的体验差不多。断网的时候,你们第一?因为你们在车端把算力堆满了。

魏斌:如果仅是从语音交互维度,可以这么理解。但整个 VLM 上车以后,它提供的能力增强不仅是语音,因为今天不管是座舱大屏还是语音,它只是交互手段。交互本身不产生价值,要看跑的业务是不是给用户带来了价值提升。

比如导航,以往用手机导航,现在切到大屏上,它没有本质区别,只不过承载的介质变了。它仍然是按照传统模式找终点,然后发起规划,选一条路,导航。

反过来讲,因为车机交互及硬件的变化,很多体验相比以往有明显升级。比如我之前做手机导航,会认为车机导航是将来的方向,但也会担心,从手机迁移到车机,里面会不会有有困难?用户有没有足够动力去迁移?但整体交互体系升级以后,用户从手机迁移到车,反而成本更低,体验更好。

我以前做手机导航的时候,跟车上最密切的互动就是类似于安卓 Auto 或者 Carplay ,用个投屏。但这个层面,你仍然无法解决关于终点输入搜索规划的一系列问题,更多是在手机上完成,然后把屏幕投到车机上。当时如果不去开新能源的车,不用新的交互体系,可能也不是什么问题。但是上了新能源车,你会发现这个迁移成本并没有那么高,反而更快。

云见 Insight:所以导航和语音还是十年来座舱最大的创新。

魏斌:是的。最近几年交互体系座舱层面的升级,其实就是语音跟业务的结合。

云见 Insight:有一些车企它们投入了很多精力去把车上的语音助手做好,然后把它变成了一个手机 APP,你们认为有价值吗?

魏斌:价值肯定有,大模型应用我用得也很频繁,但是我们本质上是一家汽车厂商,场景上涉及到车跟手机的联动,这是我们要思考的。但并不意味着,要做一个基于大模型的语音助手,这不是小鹏的方向。

云见 Insight:你们的座舱大算力芯片加 VLM 模型上车之后,你觉得从技术架构上看,是行业里绝对领先的水平吗?

魏斌:一定是的。这个我很自信。

云见 Insight:绝对领先的技术架构,能够对应绝对领先的产品体验吗?

魏斌:是的,这是直接可以划等号的。我们预期今年下半年晚些时候拿到的小鹏汽车,整个座舱体验会跟现有车形成代际差。

云见 Insight:这个感觉很容易划等号,但在自动驾驶里不是的。比如华为这一代自动驾驶技术架构还是基于规则的,但体验可以做到第一梯队。

魏斌:那要看是短期目标还是长期目标。长期来看,我觉得大家都认同端到端或 VLA 这个技术方向,且认为在更长期上,它能形成足够深的技术壁垒和积淀。短期的话,比如现阶段语音体验,光靠规则、一些简单的小模型也能做一个还不错的体验,问题是它的天花板是有限的。未来你想往更高发展,必须切换技术栈。

云见 Insight:体验上的差距会在什么时候拉开?

魏斌:我相信最近一年能显性地感觉到什么是真正的智能汽车。

就像 2020 年小鹏提出全场景智能语音一样,我相信一年之后,大部分厂商都会去追寻这个方向。

云见 Insight:它们可能追不了,因为没在车上堆那么多算力。

魏斌:这涉及到车是一个更长周期的硬件产品,可能时间会晚一些。但我们也看到有一些类似思考的厂商,它们会追得更快一些。

云见 Insight:小鹏应该最开始也没想过要用三个图灵芯片,其中一个给座舱。你们改起来还挺快的。

魏斌:对,我们分业务逻辑和硬件两条维度去讲。几年前就有关于座舱大脑的一些思考,那时候就跟小鹏有过一些讨论,但因为当时不管是算力还是软件,跟我们预期差异过大,迟迟落不了地。硬件层面,大家更多聚焦智驾,但因为图灵芯片的出现,它可能可以更好地满足座舱,所以我们也往这个方向做了一些转变。

期待很高,挑战很多

对话小鹏副总裁魏斌:大算力芯片上车后,智能座舱的大创新终于要来了-有驾

云见 Insight:自动驾驶的技术变化非常快,也非常大,但座舱好几年没有大创新了,技术卡在哪了?

魏斌:座舱对应的不管是硬件还是算力,这些年没有显性的增加。它更类似于传统手机,一年一迭代的趋势和节奏。在能力没有大的变化下,座舱做的就是体验上的小修小补,精雕细琢。

云见 Insight:感觉这产品做完了。

魏斌:对,因为在能力有基础变化之前,座舱体验都是这种便利式的、泛化式的,想到一个场景,加一个场景。因为整个业务模式和底层能力就这样。你必须明确告诉它,场景是什么?边界条件是什么?在这种场景下,很难看到座舱的体验有颠覆式变化。

现在为什么讲基于 VLM 会有大的创新,因为底层能力变化,导致整个业务模式变化。我们不再需要靠这种便利式、泛化式的方式去提升用户体验。

云见 Insight:你们对于下一代座舱技术的研发是从什么时候开始的?

魏斌:大概一两年前就慢慢开始实践了。但是因为车是一个长周期的硬件产品,从初步的雏形到最终落地,需要很长的周期。

云见 Insight:不能直接把 DeepSeek 接到车上吗?

魏斌:DeepSeek 整个深入思考的逻辑里面,跟用车场景有很大区别。车里还涉及到对车有深度理解,告诉大模型这个车怎么用,不能直接拿一个开源的模型放到车里面, DeepSeek 或者其它一些开源模型只是纯文本模型。

核心是跟业务的匹配度,因为车里这种跨域协同,就像地图导航、音乐,它给你的都是一些 SDK 或 API ,你只能去调用。以前是靠代码、靠逻辑去写。现在直接拿一个大模型,它对这些东西无法理解。需要针对用车场景以及车的特质做训练和加强。比如说怎么加玻璃水?这都需要针对车型做独特的训练和处理。

云见 Insight:所以大模型厂商在车上收不到钱。

魏斌:整个开源模式里面,靠模型本身很难挣到钱。

云见 Insight:为什么特斯拉一直不注重它的座舱体验?

魏斌:这在于不同公司对于业务方向、用户体验的重视度有多高。海外厂商对于座舱,包括车的内外饰体验的细节没那么在意,可能跟文化有关系。

到今天特斯拉的语音交互也没有大力投入,跟国内比,它的语音根本不在一个维度上。我们对于体验的重视度以及国内厂商卷的程度,把你逼到这个份上。

特斯拉的核心目标并不是造一辆车。造车只是它的手段,为了支撑它更远大的(梦想),(比如去火星,)造机器人什么的。

云见 Insight:很久以前,一个推销员去一个不穿鞋的岛上去卖鞋,最后打开了市场。对于中国的智能电动车公司而言,在海外能把需求打开吗?

魏斌:我相信是的。我们前一段时间在欧洲调研,我们对于座舱体验、座舱智能化的理解,海外客户是买单的。只不过因为一些原因,海外产品的座舱智能化体验跟国内有一些差距。随着座舱大模型、图灵芯片上车,我们相信大概一年以后,海外的小鹏汽车座舱体验也会有显性变化。

云见 Insight:把海外的座舱做到国内这个标准,是不是比智能驾驶容易很多?

魏斌:维度不一样,比如语言也导致了座舱体验有很大变化。因为国内的语音体验做到今天,有将近十年的技术积累。但海外因为语言的差异,整个语音的体验就会差很多。我们海外的同事、客户也会拿 YouTube 上的一些视频来问我,为什么国内的车可以做成这样,海外不可以?这里面最核心、最底层的是语言上有些差异。

云见 Insight:所以在车上堆足够多的算力,也是全球化战略的重要一环。

魏斌:嗯。而且这里面也有另外一个判断,就是海外的网络基建会比国内差得多,我们也要适应大部分网络不好或无网的情况下,让用户得到一个近乎完整的体验。

云见 Insight:把你们心目中的下一代座舱实现出来,都需要解决哪些问题?

魏斌:挑战很多。第一,算力是不是足够高?因为大模型应用,大家都预期算力越高越好,没有止境。第二是模型能力的匹配。一个适合车端用的模型,不管是数据的积累、训练,包括最后 “蒸馏”,放到车端,需要做大量的积累和工程链路的工作。

再一个就是用车体验层面,比如主动服务,以往都是一些基于规则的零碎场景和数据,这些数据能不能结合大模型?能不能整合好?能不能包装出用户觉得智能懂我的体验且几乎没有打扰?因为以往是让它说什么,让它干什么。现在用户想要的是一个结果,可能省略了大量过程。

还拿空调举例。以前用户是直接调 24 度、 26 度,现在是我调到一个你喜欢、适合你个性化需求的温度。比如两个人在车里坐着,你可能更偏于 26 度,我可能 24 度,怎么能把用户的个性化偏好数据用好,给用户一个真正智能化的体验?这是比较难的地方。整个智能化体验的包装,到最终落地,这里面还有很多工作。

再一个,生态层面,我们确实有很多业务需要三方联动,到底什么时间能走到 Agent to Agent 的方式?过程中通过 MCP 或这种协议去对接,都是需要慢慢去克服的。以及用户数据隐私安全的保护。围绕这几个问题,未来需要大力克服的问题还很多。

云见 Insight:VLM 模型的研发在你们团队吗,还是刘博士的团队一块做?

魏斌:我们有 AI 委员会,有一些底层基础框架、研发上的拉通,但业务层面是各个团队自己做。

云见 Insight:你们怎么招大模型的人才?校招,还是去别的企业招有经验的?

魏斌:都会有。整个行业竞争太激烈了,尤其像北京,人才招聘确实很困难。

那时候不做平台化,就死了

对话小鹏副总裁魏斌:大算力芯片上车后,智能座舱的大创新终于要来了-有驾

云见 Insight:你是做导航地图的背景,在负责一整个互联网中心智能座舱业务的时候,有什么不一样的思考方式吗?

魏斌:以前是单一应用,单一场景。但座舱是一个更完整的用户场景,跟导航完全不一样。所以对于产品来讲,核心就是(抓住)场景及用户需求之间的交集,万变不离其宗。至于上层用什么产品去支撑,反而都是手段。

云见 Insight:分享一下之前的经历?

魏斌:我之前在高德,那时候大概定义为前中后三层,后就是地图数据,中是地图引擎,前是用户产品。三个模块我都有参与。离开高德的最近三年参与的是用户产品,也就是高德地图的手机 APP。我当时负责出行业务,也就大家熟知的导航。

在阿里收购高德之前,它更像一个传统图商,更精于地图数据的采集,偏后端的模式。后面整合以后,慢慢趋向一个互联网厂商,做地图服务。

云见 Insight:图商在汽车行业做高精地图、轻地图这两场仗都输了。你判断,未来他们的汽车业务会增长还是会变小?

魏斌:我认为会增长,因为未来车对于地图数据的需求会更多样化。包括我们一直努力在 SR (Symmetrical Reality,对称现实)里面构建虚拟世界,因为 AR 里面更多是跟现实世界的贴合, SR 里面更多是跟虚拟世界做表达和结合。将来对于地图厂商而言,数据需求应该会更广泛,且对数据的精度和细节要求会更丰富。

轻图什么的,其实核心是智驾与地图能力的解耦。我觉得从未来场景看,就像人导航需要地图数据一样,比如我要找一个附近的麦当劳,肯定需要地图数据协助。我认为将来用户的多样化需求里,地图数据反而丰富度越广越好。

云见 Insight:为什么会加入小鹏?

魏斌:因为在地图行业干了七八年,上一个周期里面,手机硬件更快地迭代更新。大家车上都放了一个手机,里面再装高德地图。那是因为上一个周期里面,汽车的硬件没跟上。我们坚定认为,将来地图导航,尤其是人开车这个层面,终局一定是回到车上。 2020 年、2021 年就有这个想法。

后面 2021 年底机缘巧合加入了小鹏,我们也一直希望在用车这个场景里,将导航做得更加极致。可能也因为这个基础的想法,才有了前一段时间面世的 AR HUD,一些车道级的导航。

云见 Insight:刚来小鹏的时候什么感觉?

魏斌: 2022 年是小鹏汽车最困难的一个阶段。当时座舱也有一些历史原因,包括平台化做得不太好,大量的问题需要去解决。当时小鹏汽车只有那么一两款、两三款车。即便这种情况下,新车的适配,包括老车的体验解决都非常头疼。

云见 Insight:回顾一下在小鹏这三年都做了什么事情?

魏斌:这三年多确实比较辛苦。这里面几件大的事情,第一是平台化。小鹏当年智能座舱平台化做得不好,很多东西都是定制的,去向其它车型做适配时难度非常大。

小鹏汽车有一阶段,路上的车分别是 OS 1.0、 OS 2.0、 OS 3.0 和 OS 4.0。升级的时候,要针对不同版本。这带来了巨大的工作量,维护起来异常痛苦。

以往做互联网软件的,你很难看到高德地图 APP 针对每一个手机型号,它一定基本兼容所有手机。但小鹏汽车之前积累并不好。我认为这是一个历史包袱,也确实花了我们不少时间。(直到)去年 4 月,推出基于扶摇车型的平台化。

然后,XOS 5.0 ,也就是去年发的一个大系统版本,这是座舱解决基础问题、解决包袱之后,才开始面向创新的第一步。基于所谓的一站式 SR 全景,包括分屏多任务,这是我们在业内首先提出的。今天我也比较欣慰看到有些厂商在跟进、模仿一些整体设计。

还有 AR HUD,其实也做了一年半、将近两年的时间。还有智能语音,我们在业内首个推出了免唤醒方式。

云见 Insight:这里面对你个人而言,最大的挑战是什么?

魏斌解决历史包袱加上创新并行。有些历史的业务逻辑做得并不好,要花大量时间去重构。你的资源是有限的,如何去平衡?这些年非常难。但是从我的理念,如果地基打不好,将来上面的业务都会比较虚无,所以我认为历史问题必须要解决好。

所以为什么在 2023 年、 2024 年我们投了大量精力去做平台化,那时候我也跟小鹏聊天,说(如果) 2024 年平台化没有做好,现在我们已经挂了。因为现在小鹏几十款车。我们 2022 年, 2021 年,甚至一年只做了一款车对应的软件。到 2025 年,我们要发 100 个版本,一周两个版本。如果平台化不做,抱歉,我们去年就已经死了。

所以有些东西必须要做,只有基础打好了,我们未来才有可能跑得更快、跑得更远。

云见 Insight:你直接跟何小鹏汇报,觉得他跟前几年有什么不同吗?

魏斌:我觉得小鹏做事的方式一直没什么变化,只不过这几年,阶段性面临的问题不一样。小鹏面临巨大的压力,包括整个大的组织调整,战略规划上的调整,包括大家看到大卖的 Mona ,内部也面临不同的声音。

云见 Insight:大家当时都没看懂,为什么小鹏还需要一辆 15 万的车?

魏斌:其实从最终的型谱,车型定位来看,我们那时候真的需要这么一款车。小鹏说过,自己造需要更长的周期,我们可能就错过那个时间窗口了。为什么跟滴滴合作?就是用金钱换时间,去抢这个时间窗口。

交互只是介质,要和业务场景结合

对话小鹏副总裁魏斌:大算力芯片上车后,智能座舱的大创新终于要来了-有驾

云见 Insight:你们的智能座舱里面,你最得意的一个产品功能、产品体验是什么?

魏斌:最得意的永远都在路上。如果非要说现阶段比较得意的,我还是建议你去开一开 G7,看一看基于我们对地图、对人驾的理解,它的一个 AR HUD 体验,我觉得这应该阶段性还算满意的。

云见 Insight:座舱做得花哨很容易,但是做得简洁很难。如何围绕着用户的需求,把不需要的做减法?

魏斌:这里最核心的,比如像 AI 绘图,你可以认为它是个能力或者手段或工具,核心问题是它跟座舱业务场景结合以后,是不是有巨大的价值?你说它有人用吗?一定有人用。但是用一次、两次以后,就扔在一边了。对于软件迭代创新而言,这种功能就没太大价值。对于整个系统来讲,上了这种功能越多,包袱就越多。当时 AI 绘图、什么换壁纸一系列,我们认为是偏噱头。

云见 Insight:这是你们一开始就没做的功能。有哪些是你们做了又砍了?

魏斌:这些年好像不多。

云见 Insight:之前好像有一个车外的喇叭,可以说话。

魏斌:有一些历史原因,那个产品后续就断了。它有车外发声的能力,没有车外交互的能力,只是用 Abus 的音箱对外播放音效,应该是一些点状创新做的。

我认为人在车外,跟车是有交互需求的。无非是通过语音或者通过手机 APP 来完成。后面的车型有车外语音交互的功能,在车外可以跟小 P 聊天。

云见 Insight:在车外跟车说什么?

魏斌:最典型的场景是,有的车位比较窄,让小 P 把车开出来。

云见 Insight:一些车企还尝试过比如手势操控那类功能,它没有带来足够好的体验,你觉得主要是什么原因?

魏斌:手势操控在我看来和 AI 绘图一样。举个例子,车里面高度大屏化、软件化的时候,我们仍然保留车窗的一些物理按键,为什么?其实说白了,对人来讲,不管是用物理按键、用大屏都没关系,包括用语音,它只是一个交互手段。用户其实是又懒又聪明的,他会下意识选最低成本、最高效、最好用的方式。我觉得手势是一种方式,但现阶段行业做的手势应用,实际使用价值没那么大。

云见 Insight:因为确实不好用。你觉得哪些是用户的非刚需、哪些可能有需求,但今天的技术和产品没做好?

魏斌:就像手势操控,我们不能说它一定没用。但是现在没有找到一种更合理的方式打开它,什么场景用它更好地解决问题。包括我个人还认为将来可能有一定的物理按键回流的趋势,因为对用户来讲,它只是要找到一种最适合它的、最高效、最好用的交互方式而已。

云见 Insight:互联网中心需要考虑座舱的成本吗?

魏斌:当然需要。不只是自己的研发成本,包括座舱整个软硬件成本都需要考虑。

互联网软件基本不考虑成本,它摊销到海量用户规模上,约等于没有。但是车不一样,每辆车里面不同的硬件、不同的软件,每卖一辆车都要付钱。尤其是硬件,能不能带来预期的效果,内部有无数轮讨论。

云见 Insight:一个图灵芯片加一个高通 8295 是非常高的成本,把这一套方案搭载到 25 万级别的车型上,大家会担心,这个车的毛利率是不是非常低?

魏斌:我们的成本服务于业务目标。图灵芯片上车以后,推出的座舱软件服务,能不能值回票价?这是我们需要考虑的。就像当初上 AR HUD 的时候也面临着成本上的挑战,有不少同事问,为什么不能选择其它厂商更便宜的产品?最终我们要用结果说话,体验是不是能做出差异化。(转载自云见 Insight)

  • 雷军:小米YU7将于本周四发布

  • 特斯拉在奥斯汀推出自动驾驶出租车服务

  • 对话小鹏副总裁魏斌:大算力芯片上车后,智能座舱的大创新终于要来了

  • 比亚迪元PLUS全球累销破100万辆

  • 特斯拉无人车上路接客了,马斯克画了九年大饼

  • 特斯拉新款Model Y真车上路曝光

0

全部评论 (0)

暂无评论