点击关注不迷路
最近,小鹏汽车旗下的机器人中心突然搞了个大动作:
新成立了一个叫“智能拟态部”的部门,专门研究机器人多模态技术。
消息一出,行业内议论纷纷:
这到底是技术突破的信号,还是企业宣传的噱头?
今天咱们就来聊聊这个话题,看看小鹏这步棋到底在打什么算盘。
“智能拟态部”是个啥?听名字挺玄乎,实际干啥的?
先说说这个部门的名字,“智能拟态部”听起来有点科幻小说的味道,但其实它的核心任务很明确:
研究机器人多模态技术。
简单来说,就是让机器人像人类一样,能同时处理视觉、听觉、触觉等多种信息。
比如,你对着机器人说“帮我拿一杯水”,它不仅要听懂你的指令,还要看清楚水杯的位置,判断水杯的材质,是玻璃的还是塑料的,最后用合适的力度抓起来。
这个部门的负责人叫葛艺潇,之前在腾讯搞过AR和多模态方向的研究,28岁就升到了T12技术专家,腾讯的职级体系里,T12已经是凤毛麟角的级别。
不过眼下这个部门的团队规模有点小——总共才3个人,连一个小型会议室都坐不满。
小鹏倒是已经启动了招聘计划,但问题是,这种前沿技术方向的人才可不好招,毕竟既要懂机器人,又要熟悉多模态大模型,还得能忍受“从零造轮子”的枯燥。
多模态技术是啥?为啥突然成了香饽饽?
多模态这个词,最近两年在AI圈里特别火。简单解释一下:
人类感知世界靠的是“多模态”——眼睛看、耳朵听、鼻子闻、手摸脚踩,这些信息在大脑里综合处理,才能做出决策。
而传统机器人呢?
大多数都是“单模态”的,比如靠摄像头识别物体,或者靠语音模块听指令,但这些信息之间是割裂的。
举个例子,现在市面上的扫地机器人,能靠激光雷达识别家具位置,但如果你在它工作时突然扔了一件衣服在地上,它大概率会“撞衫”;
而如果它能结合视觉、触觉,感受到阻力和惯性导航,知道自己移动的位置,就能更灵活地绕开障碍。
这就是多模态的潜力——让机器人变得更“聪明”,而不是靠堆硬件解决问题。
但问题是,多模态技术现在还处于“听起来很美”的阶段。
比如,如何把不同传感器的数据统一建模?
如何让机器人在复杂环境中快速决策?
这些问题都还没完全解决。
小鹏直接跳过行业主流的“强化学习小模型+分段式端到端”路线,选择和自家物理世界基座模型共用VLA架构,视觉-语言-动作联合模型,听起来很超前,但也意味着要踩很多坑。
小鹏这步棋:差异化布局还是无奈之举?
有意思的是,小鹏在机器人领域走的路子和其他公司不太一样。
特斯拉的Optimus、波士顿动力的Atlas,都在强调运动控制和机械设计,而小鹏却直接押注多模态和VLA架构。
这背后的原因,可能和小鹏自身的资源有关:
它作为车企起家,有自动驾驶的积累,尤其是视觉感知和云端AI基础设施,这些能力可以迁移到机器人领域。
但这也带来一个问题:
小鹏的机器人团队,更像是从自动驾驶业务里“长”出来的,而不是传统机器人公司的技术路线。
比如,他们计划在第五代机器人上搭载自研的图灵芯片,直接用VLA架构处理视觉、语言和动作指令。
这种做法的好处是能复用现有技术,但坏处是可能忽略机器人本身的机械设计短板。
毕竟,再聪明的机器人,如果连站都站不稳,也干不了活。
另外,小鹏的野心还不止于技术层面。
CEO何小鹏公开说过,中国具身智能,也就是机器人这类能与环境交互的智能体会在5到15年内全球领先。
这话听着挺提气,但现实是:
目前全球主流的机器人技术还是被欧美和日本企业主导,小鹏想弯道超车,难度不小。
团队只有3个人,技术目标却敢喊“行业领先”?
现在回到最现实的问题:
小鹏这个“智能拟态部”目前只有3个人,而他们的目标却是“构建行业领先的具身智能原生多模态大模型”。
这种反差,让人不禁怀疑:这是不是有点“画饼”了?
其实,这种情况在科技行业并不少见。
很多企业会在技术布局初期先成立部门,再招兵买马。
但问题在于,多模态技术的研发周期长、投入大,短期内很难看到成果。
比如,要训练一个多模态大模型,需要海量的高质量数据,而机器人领域的数据获取成本远高于互联网行业。
小鹏虽然能复用云端AI基础设施,但数据标注、算法优化这些苦活累活,还是得靠人一砖一瓦地干。
更尴尬的是,目前机器人行业的应用场景还很有限。
像特斯拉Optimus这类人形机器人,主要还是在秀肌肉,比如开个门、搬个箱子,但离真正商业化还有距离。
小鹏的IRON机器人虽然已经在工厂里“打工”,比如拧螺丝,但这类任务对多模态的需求其实不高,靠传统视觉算法和机械臂就能解决。
换句话说,多模态技术的“刚需场景”还没出现,小鹏现在投入重金,更像是在赌未来。
多模态是刚需吗?还是企业的“技术焦虑”?
说到这儿,咱们得问一句:
机器人真的需要多模态吗?
从技术角度看,多模态肯定是大趋势。
毕竟,人类就是靠多感官协同来感知世界的,机器人如果想替代人类完成复杂任务,必须得突破这一关。
但问题是,现阶段的多模态技术,到底能解决什么实际问题?
举个例子:现在的小鹏机器人宣传里,提到“世界模型”和“空间智能”。
这两个概念听起来很高大上,但具体到应用层面,可能就是让机器人提前规划动作路径,或者更准确地识别物体材质。
然而,这些功能用现有的技术也能实现,只不过效率低一些。
比如,机器人分不清玻璃杯和塑料杯,可以加个触觉传感器;
判断不了空间距离,可以多装几个激光雷达。
所以,小鹏现在高举多模态的大旗,更像是在抢占技术制高点,而不是解决当下的痛点。
这背后或许还有资本市场的压力:
机器人赛道现在很火,但投资人也在变聪明,光靠“堆硬件”讲故事已经行不通了,必须得有“差异化技术”。
小鹏押注多模态,本质上是在给投资人一个“长期想象空间”。
小鹏的挑战:钱、人、时间,一个都不能少
最后咱们来聊聊小鹏的“硬骨头”:
他们到底能不能把多模态技术落地?
先看钱。
何小鹏说过,小鹏未来可能在机器人领域投入500亿甚至上千亿,听起来很豪气,但现实是:
小鹏汽车自己还在亏损,2024年财报显示,公司全年净亏损超过90亿元。
这种情况下,机器人业务的投入肯定要“精打细算”。
再看人。
葛艺潇虽然厉害,但单靠一个技术大牛带三个新人,显然撑不起整个部门。
多模态技术需要跨学科团队——计算机视觉、自然语言处理、机器人控制、机械设计,甚至还要懂脑科学。
小鹏现在招人倒是挺积极,但这类人才在行业里本来就抢手,微软、谷歌、特斯拉这些大厂也在盯着。
最后是时间。
多模态技术从实验室到落地,至少需要5-10年。
但机器人行业的竞争节奏却越来越快:
波士顿动力的Atlas已经能后空翻,宇树科技的新款人形机器人R1价格直接干到4万元,连阿里都推出了AI眼镜。
小鹏如果不能在短期内拿出像样的产品,很容易被市场遗忘。
多模态不是万能药,但不做就输在起跑线
说到底,小鹏成立“智能拟态部”这件事,既不能说是噱头,也不能说是突破。
它更像是一个企业在技术转型期的必然选择:
既然自动驾驶和造车都卷不过了,那就往机器人这个新赛道里挤。
多模态技术确实是AI的重要方向,但能不能成,还得看小鹏有没有足够的耐心和资源去熬过漫长的“技术爬坡期”。
对于普通读者来说,咱们不妨把这事当个观察样本:
未来几年,如果小鹏能陆续发布多模态技术的落地成果,比如机器人能同时处理视觉、语音和触觉指令完成复杂任务,那它确实走在了行业前面;
但如果部门始终只有几个人,技术成果停留在PPT里,那这场豪赌大概率会变成“技术焦虑”的笑话。
你觉得小鹏这次能押对宝吗?
评论区聊聊吧!
(全文完)
全部评论 (0)