小鹏机器人新成立智能拟态部:主攻机器人多模态

点击关注不迷路

小鹏机器人新成立智能拟态部:主攻机器人多模态-有驾

最近,小鹏汽车旗下的机器人中心突然搞了个大动作:

新成立了一个叫“智能拟态部”的部门,专门研究机器人多模态技术。

消息一出,行业内议论纷纷:

这到底是技术突破的信号,还是企业宣传的噱头?

今天咱们就来聊聊这个话题,看看小鹏这步棋到底在打什么算盘。

“智能拟态部”是个啥?听名字挺玄乎,实际干啥的?

先说说这个部门的名字,“智能拟态部”听起来有点科幻小说的味道,但其实它的核心任务很明确:

研究机器人多模态技术。

简单来说,就是让机器人像人类一样,能同时处理视觉、听觉、触觉等多种信息。

比如,你对着机器人说“帮我拿一杯水”,它不仅要听懂你的指令,还要看清楚水杯的位置,判断水杯的材质,是玻璃的还是塑料的,最后用合适的力度抓起来。

这个部门的负责人叫葛艺潇,之前在腾讯搞过AR和多模态方向的研究,28岁就升到了T12技术专家,腾讯的职级体系里,T12已经是凤毛麟角的级别。

不过眼下这个部门的团队规模有点小——总共才3个人,连一个小型会议室都坐不满。

小鹏倒是已经启动了招聘计划,但问题是,这种前沿技术方向的人才可不好招,毕竟既要懂机器人,又要熟悉多模态大模型,还得能忍受“从零造轮子”的枯燥。

多模态技术是啥?为啥突然成了香饽饽?

多模态这个词,最近两年在AI圈里特别火。简单解释一下:

人类感知世界靠的是“多模态”——眼睛看、耳朵听、鼻子闻、手摸脚踩,这些信息在大脑里综合处理,才能做出决策。

而传统机器人呢?

大多数都是“单模态”的,比如靠摄像头识别物体,或者靠语音模块听指令,但这些信息之间是割裂的。

举个例子,现在市面上的扫地机器人,能靠激光雷达识别家具位置,但如果你在它工作时突然扔了一件衣服在地上,它大概率会“撞衫”;

而如果它能结合视觉、触觉,感受到阻力和惯性导航,知道自己移动的位置,就能更灵活地绕开障碍。

这就是多模态的潜力——让机器人变得更“聪明”,而不是靠堆硬件解决问题。

但问题是,多模态技术现在还处于“听起来很美”的阶段。

比如,如何把不同传感器的数据统一建模?

如何让机器人在复杂环境中快速决策?

这些问题都还没完全解决。

小鹏直接跳过行业主流的“强化学习小模型+分段式端到端”路线,选择和自家物理世界基座模型共用VLA架构,视觉-语言-动作联合模型,听起来很超前,但也意味着要踩很多坑。

小鹏这步棋:差异化布局还是无奈之举?

有意思的是,小鹏在机器人领域走的路子和其他公司不太一样。

特斯拉的Optimus、波士顿动力的Atlas,都在强调运动控制和机械设计,而小鹏却直接押注多模态和VLA架构。

这背后的原因,可能和小鹏自身的资源有关:

它作为车企起家,有自动驾驶的积累,尤其是视觉感知和云端AI基础设施,这些能力可以迁移到机器人领域。

但这也带来一个问题:

小鹏的机器人团队,更像是从自动驾驶业务里“长”出来的,而不是传统机器人公司的技术路线。

比如,他们计划在第五代机器人上搭载自研的图灵芯片,直接用VLA架构处理视觉、语言和动作指令。

这种做法的好处是能复用现有技术,但坏处是可能忽略机器人本身的机械设计短板。

毕竟,再聪明的机器人,如果连站都站不稳,也干不了活。

另外,小鹏的野心还不止于技术层面。

CEO何小鹏公开说过,中国具身智能,也就是机器人这类能与环境交互的智能体会在5到15年内全球领先。

这话听着挺提气,但现实是:

目前全球主流的机器人技术还是被欧美和日本企业主导,小鹏想弯道超车,难度不小。

团队只有3个人,技术目标却敢喊“行业领先”?

现在回到最现实的问题:

小鹏这个“智能拟态部”目前只有3个人,而他们的目标却是“构建行业领先的具身智能原生多模态大模型”。

这种反差,让人不禁怀疑:这是不是有点“画饼”了?

其实,这种情况在科技行业并不少见。

很多企业会在技术布局初期先成立部门,再招兵买马。

但问题在于,多模态技术的研发周期长、投入大,短期内很难看到成果。

比如,要训练一个多模态大模型,需要海量的高质量数据,而机器人领域的数据获取成本远高于互联网行业。

小鹏虽然能复用云端AI基础设施,但数据标注、算法优化这些苦活累活,还是得靠人一砖一瓦地干。

更尴尬的是,目前机器人行业的应用场景还很有限。

像特斯拉Optimus这类人形机器人,主要还是在秀肌肉,比如开个门、搬个箱子,但离真正商业化还有距离。

小鹏的IRON机器人虽然已经在工厂里“打工”,比如拧螺丝,但这类任务对多模态的需求其实不高,靠传统视觉算法和机械臂就能解决。

换句话说,多模态技术的“刚需场景”还没出现,小鹏现在投入重金,更像是在赌未来。

多模态是刚需吗?还是企业的“技术焦虑”?

说到这儿,咱们得问一句:

机器人真的需要多模态吗?

从技术角度看,多模态肯定是大趋势。

毕竟,人类就是靠多感官协同来感知世界的,机器人如果想替代人类完成复杂任务,必须得突破这一关。

但问题是,现阶段的多模态技术,到底能解决什么实际问题?

举个例子:现在的小鹏机器人宣传里,提到“世界模型”和“空间智能”。

这两个概念听起来很高大上,但具体到应用层面,可能就是让机器人提前规划动作路径,或者更准确地识别物体材质。

然而,这些功能用现有的技术也能实现,只不过效率低一些。

比如,机器人分不清玻璃杯和塑料杯,可以加个触觉传感器;

判断不了空间距离,可以多装几个激光雷达。

所以,小鹏现在高举多模态的大旗,更像是在抢占技术制高点,而不是解决当下的痛点。

这背后或许还有资本市场的压力:

机器人赛道现在很火,但投资人也在变聪明,光靠“堆硬件”讲故事已经行不通了,必须得有“差异化技术”。

小鹏押注多模态,本质上是在给投资人一个“长期想象空间”。

小鹏的挑战:钱、人、时间,一个都不能少

最后咱们来聊聊小鹏的“硬骨头”:

他们到底能不能把多模态技术落地?

先看钱。

何小鹏说过,小鹏未来可能在机器人领域投入500亿甚至上千亿,听起来很豪气,但现实是:

小鹏汽车自己还在亏损,2024年财报显示,公司全年净亏损超过90亿元。

这种情况下,机器人业务的投入肯定要“精打细算”。

再看人。

葛艺潇虽然厉害,但单靠一个技术大牛带三个新人,显然撑不起整个部门。

多模态技术需要跨学科团队——计算机视觉、自然语言处理、机器人控制、机械设计,甚至还要懂脑科学。

小鹏现在招人倒是挺积极,但这类人才在行业里本来就抢手,微软、谷歌、特斯拉这些大厂也在盯着。

最后是时间。

多模态技术从实验室到落地,至少需要5-10年。

但机器人行业的竞争节奏却越来越快:

波士顿动力的Atlas已经能后空翻,宇树科技的新款人形机器人R1价格直接干到4万元,连阿里都推出了AI眼镜。

小鹏如果不能在短期内拿出像样的产品,很容易被市场遗忘。

多模态不是万能药,但不做就输在起跑线

说到底,小鹏成立“智能拟态部”这件事,既不能说是噱头,也不能说是突破。

它更像是一个企业在技术转型期的必然选择:

既然自动驾驶和造车都卷不过了,那就往机器人这个新赛道里挤。

多模态技术确实是AI的重要方向,但能不能成,还得看小鹏有没有足够的耐心和资源去熬过漫长的“技术爬坡期”。

对于普通读者来说,咱们不妨把这事当个观察样本:

未来几年,如果小鹏能陆续发布多模态技术的落地成果,比如机器人能同时处理视觉、语音和触觉指令完成复杂任务,那它确实走在了行业前面;

但如果部门始终只有几个人,技术成果停留在PPT里,那这场豪赌大概率会变成“技术焦虑”的笑话。

你觉得小鹏这次能押对宝吗?

评论区聊聊吧!

(全文完)

0

全部评论 (0)

暂无评论