小鹏机器人新成立智能拟态部：主攻机器人多模态-有驾

点击关注不迷路

最近，小鹏汽车旗下的机器人中心突然搞了个大动作：

新成立了一个叫“智能拟态部”的部门，专门研究机器人多模态技术。

消息一出，行业内议论纷纷：

这到底是技术突破的信号，还是企业宣传的噱头？

今天咱们就来聊聊这个话题，看看小鹏这步棋到底在打什么算盘。

“智能拟态部”是个啥？听名字挺玄乎，实际干啥的？

先说说这个部门的名字，“智能拟态部”听起来有点科幻小说的味道，但其实它的核心任务很明确：

研究机器人多模态技术。

简单来说，就是让机器人像人类一样，能同时处理视觉、听觉、触觉等多种信息。

比如，你对着机器人说“帮我拿一杯水”，它不仅要听懂你的指令，还要看清楚水杯的位置，判断水杯的材质，是玻璃的还是塑料的，最后用合适的力度抓起来。

这个部门的负责人叫葛艺潇，之前在腾讯搞过AR和多模态方向的研究，28岁就升到了T12技术专家，腾讯的职级体系里，T12已经是凤毛麟角的级别。

不过眼下这个部门的团队规模有点小——总共才3个人，连一个小型会议室都坐不满。

小鹏倒是已经启动了招聘计划，但问题是，这种前沿技术方向的人才可不好招，毕竟既要懂机器人，又要熟悉多模态大模型，还得能忍受“从零造轮子”的枯燥。

多模态技术是啥？为啥突然成了香饽饽？

多模态这个词，最近两年在AI圈里特别火。简单解释一下：

人类感知世界靠的是“多模态”——眼睛看、耳朵听、鼻子闻、手摸脚踩，这些信息在大脑里综合处理，才能做出决策。

而传统机器人呢？

大多数都是“单模态”的，比如靠摄像头识别物体，或者靠语音模块听指令，但这些信息之间是割裂的。

举个例子，现在市面上的扫地机器人，能靠激光雷达识别家具位置，但如果你在它工作时突然扔了一件衣服在地上，它大概率会“撞衫”；

而如果它能结合视觉、触觉，感受到阻力和惯性导航，知道自己移动的位置，就能更灵活地绕开障碍。

这就是多模态的潜力——让机器人变得更“聪明”，而不是靠堆硬件解决问题。

但问题是，多模态技术现在还处于“听起来很美”的阶段。

比如，如何把不同传感器的数据统一建模？

如何让机器人在复杂环境中快速决策？

这些问题都还没完全解决。

小鹏直接跳过行业主流的“强化学习小模型+分段式端到端”路线，选择和自家物理世界基座模型共用VLA架构，视觉-语言-动作联合模型，听起来很超前，但也意味着要踩很多坑。

小鹏这步棋：差异化布局还是无奈之举？

有意思的是，小鹏在机器人领域走的路子和其他公司不太一样。

特斯拉的Optimus、波士顿动力的Atlas，都在强调运动控制和机械设计，而小鹏却直接押注多模态和VLA架构。

这背后的原因，可能和小鹏自身的资源有关：

它作为车企起家，有自动驾驶的积累，尤其是视觉感知和云端AI基础设施，这些能力可以迁移到机器人领域。

但这也带来一个问题：

小鹏的机器人团队，更像是从自动驾驶业务里“长”出来的，而不是传统机器人公司的技术路线。

比如，他们计划在第五代机器人上搭载自研的图灵芯片，直接用VLA架构处理视觉、语言和动作指令。

这种做法的好处是能复用现有技术，但坏处是可能忽略机器人本身的机械设计短板。

毕竟，再聪明的机器人，如果连站都站不稳，也干不了活。

另外，小鹏的野心还不止于技术层面。

CEO何小鹏公开说过，中国具身智能，也就是机器人这类能与环境交互的智能体会在5到15年内全球领先。

这话听着挺提气，但现实是：

目前全球主流的机器人技术还是被欧美和日本企业主导，小鹏想弯道超车，难度不小。

团队只有3个人，技术目标却敢喊“行业领先”？

现在回到最现实的问题：

小鹏这个“智能拟态部”目前只有3个人，而他们的目标却是“构建行业领先的具身智能原生多模态大模型”。

这种反差，让人不禁怀疑：这是不是有点“画饼”了？

其实，这种情况在科技行业并不少见。

很多企业会在技术布局初期先成立部门，再招兵买马。

但问题在于，多模态技术的研发周期长、投入大，短期内很难看到成果。

比如，要训练一个多模态大模型，需要海量的高质量数据，而机器人领域的数据获取成本远高于互联网行业。

小鹏虽然能复用云端AI基础设施，但数据标注、算法优化这些苦活累活，还是得靠人一砖一瓦地干。

更尴尬的是，目前机器人行业的应用场景还很有限。

像特斯拉Optimus这类人形机器人，主要还是在秀肌肉，比如开个门、搬个箱子，但离真正商业化还有距离。

小鹏的IRON机器人虽然已经在工厂里“打工”，比如拧螺丝，但这类任务对多模态的需求其实不高，靠传统视觉算法和机械臂就能解决。

换句话说，多模态技术的“刚需场景”还没出现，小鹏现在投入重金，更像是在赌未来。

多模态是刚需吗？还是企业的“技术焦虑”？

说到这儿，咱们得问一句：

机器人真的需要多模态吗？

从技术角度看，多模态肯定是大趋势。

毕竟，人类就是靠多感官协同来感知世界的，机器人如果想替代人类完成复杂任务，必须得突破这一关。

但问题是，现阶段的多模态技术，到底能解决什么实际问题？

举个例子：现在的小鹏机器人宣传里，提到“世界模型”和“空间智能”。

这两个概念听起来很高大上，但具体到应用层面，可能就是让机器人提前规划动作路径，或者更准确地识别物体材质。

然而，这些功能用现有的技术也能实现，只不过效率低一些。

比如，机器人分不清玻璃杯和塑料杯，可以加个触觉传感器；

判断不了空间距离，可以多装几个激光雷达。

所以，小鹏现在高举多模态的大旗，更像是在抢占技术制高点，而不是解决当下的痛点。

这背后或许还有资本市场的压力：

机器人赛道现在很火，但投资人也在变聪明，光靠“堆硬件”讲故事已经行不通了，必须得有“差异化技术”。

小鹏押注多模态，本质上是在给投资人一个“长期想象空间”。

小鹏的挑战：钱、人、时间，一个都不能少

最后咱们来聊聊小鹏的“硬骨头”：

他们到底能不能把多模态技术落地？

先看钱。

何小鹏说过，小鹏未来可能在机器人领域投入500亿甚至上千亿，听起来很豪气，但现实是：

小鹏汽车自己还在亏损，2024年财报显示，公司全年净亏损超过90亿元。

这种情况下，机器人业务的投入肯定要“精打细算”。

再看人。

葛艺潇虽然厉害，但单靠一个技术大牛带三个新人，显然撑不起整个部门。

多模态技术需要跨学科团队——计算机视觉、自然语言处理、机器人控制、机械设计，甚至还要懂脑科学。

小鹏现在招人倒是挺积极，但这类人才在行业里本来就抢手，微软、谷歌、特斯拉这些大厂也在盯着。

最后是时间。

多模态技术从实验室到落地，至少需要5-10年。

但机器人行业的竞争节奏却越来越快：

波士顿动力的Atlas已经能后空翻，宇树科技的新款人形机器人R1价格直接干到4万元，连阿里都推出了AI眼镜。

小鹏如果不能在短期内拿出像样的产品，很容易被市场遗忘。

多模态不是万能药，但不做就输在起跑线

说到底，小鹏成立“智能拟态部”这件事，既不能说是噱头，也不能说是突破。

它更像是一个企业在技术转型期的必然选择：

既然自动驾驶和造车都卷不过了，那就往机器人这个新赛道里挤。

多模态技术确实是AI的重要方向，但能不能成，还得看小鹏有没有足够的耐心和资源去熬过漫长的“技术爬坡期”。

对于普通读者来说，咱们不妨把这事当个观察样本：

未来几年，如果小鹏能陆续发布多模态技术的落地成果，比如机器人能同时处理视觉、语音和触觉指令完成复杂任务，那它确实走在了行业前面；

但如果部门始终只有几个人，技术成果停留在PPT里，那这场豪赌大概率会变成“技术焦虑”的笑话。

你觉得小鹏这次能押对宝吗？

评论区聊聊吧！

（全文完）

小鹏机器人新成立智能拟态部：主攻机器人多模态

全部评论（0）

热门推荐

小鹏机器人新成立智能拟态部：主攻机器人多模态

全部评论 （0）

热门推荐

全部评论（0）