【导语】在2025年世界机器人大会上,宇树科技创始人王兴兴抛出反共识观点,指出限制机器人产业爆发的核心在于模型架构的落后,而非数据不足。这一论断犹如一盆冷水,浇在了全球机器人产业疯狂收集数据的热潮上。同时,机器人产业正迎来前所未有的繁荣景象,但具身智能的AI不足成为最大挑战。王兴兴强调,当前机器人硬件性能已够用,但AI大脑却跟不上,制约了机器人的大规模应用。未来,机器人产业将围绕统一大模型、低成本硬件及算力三大支柱,实现从“可用”到“好用”的关键跨越。
2025年世界机器人大会上,宇树科技创始人王兴兴抛出一个反共识观点:限制机器人产业爆发的核心不是数据不足,而是模型架构的落后——这犹如一盆冷水,浇在疯狂收集数据的机器人厂商头上。
北京亦庄,2025世界机器人大会主论坛现场,宇树科技CEO王兴兴站在(zài)演(yǎn)讲(jiǎng)台(tái)前(qián),面(miàn)对(duì)全球(qiú)机(jī)器(qì)人(rén)产(chǎn)业(yè)精(jīng)英(yīng),抛(pāo)出(chū)了(le)一(yī)个(gè)观(guān)点(diǎn):“目(mù)前(qián)全球(qiú)范(fàn)围(wéi)内,大家对机器人数据这个问题关注度有点太高了。”
在他看来:“现在最大的问题其实是模型问题,而不是数据问题。”
会场内一阵低声议论。在OpenAI成功范式影响下,全球机器人产业正疯狂收集数据,各地机器人数采中心如雨后春笋般涌现。王兴兴的论断犹如一盆冷水,泼在了整个行业的发展思路上。
当硬件够用,Ai掉队
2025年,机器人产业正迎来前所未有的繁荣景象。先是智元机器人以大手笔入主上纬新材,引发“借壳上市”的猜测,股价连续涨停10次,每次涨幅达20%,刷新了A股市场的纪录;随后,宇树科技年内四次传出IPO消息,直至中国证监会公布其上市辅导备案报告,IPO的悬念终于尘埃落定。
在近日开幕的世界机器人大会展厅内,灵活舞动的人形机器人随处可见,展台前观众络绎不绝。超过150款人形机器人同台亮相,创下了国内有史以来最大规模的人形机器人集体展示纪录。

王兴兴在演讲中透露,今年上半年,机器人行业增速惊人,整机及零部件厂商的平均增长率达到了50%-100%,这一增速在行业历史上极为罕见。
在这场行业狂奔的背后,是资本热潮的涌动。据驾趣智库不完全统计,截至8月7日,今年该领域已发生超过百起融资事件,累计融资金额接近300亿元(未披露的融资额未纳入统计)。相比之下,去年全年共发生72起融资事件,累计融资金额约为130.23亿元。今年以来的(de)投(tóu)资(zī)数(shù)量(liàng)和(hé)金(jīn)额(é)已(yǐ)远(yuǎn)超(chāo)去(qù)年(nián)全年(nián)数(shù)据(jù)。
然(rán)而(ér)繁(fán)荣(róng)背(bèi)后(hòu)暗(àn)藏(cáng)隐(yǐn)忧。王兴兴指出一个关键矛盾:“机器人硬件性能虽然还不够好,但目前是够用的。目前最大的挑战还是具身智能的AI完全不够用。这也是限制人形机器人大规模应用的最大点。”
这一判断得到产业数据的佐证。今年以来,从机器人首登央视春晚跳舞,到全球首个机器人半程马拉松“洋相百出”、即将开幕的全球首届人形机器人运动会,再到本届世界机器人大会和全国大学生机器人大赛等密集活动,人形机器人在表演、格斗等娱乐场景大放异彩,但在真正需要“干活”的工业场景,应用深度仍然有限。

“机器人的应用场景究竟为何?没有找准这一定位,就很难针对性的做技术突破。”在与某位业内技术大拿沟通时,他如是向驾趣智库坦言,是单纯(chún)陪伴,还是家务助手,抑或需要更精密操作,这些都需要不同的技术实现。
而在王兴兴看来,很多技术的进步是需要时间的,当下马上让一个机器人去家里干点有实际价值的活还不太现实,如果只是做个Demo(演示)或者示例是没问题的。“我们去年就跟汽车工厂合作,在工厂落地部署机器人,但是真正让机器人产生比较大的价值,当下是不太现实的。”正如早期电脑诞生时,也同样不具备普适性、实用性。
“当前这个时点有点像ChatGPT出来之前的1到3年,”王兴兴如此比喻机器人大模型的发展阶段,“整个业界已经发现了类似的方向以及技术路线,但是没人把它做出来。”
具身智能大模型的滞后已成为制约机器人真正“干活”的核心挑战。当硬件准备就绪,AI大脑却跟不上,这场产业革命的步伐因此被拖慢。
VLA遇冷,世界模型崛起
面对具身智能的模型瓶颈,全球科研团队正探索不同技术路径。其中VLA+RL(视觉-语言-动作模型+强化学习)路线获得了众多顶尖机构的青睐,被视为通向通用机器人智能的可行之路。
那么什么是VLA呢?简单来说,这类模型旨在将视觉感知、语言理解和物理动作融为一体,让机器人能够听懂人的指令(“把桌子上的苹果拿给我”),看懂当前(qián)的(de)环(huán)境(jìng)(识(shi)别(bié)出(chū)哪(nǎ)个(gè)是(shì)苹(píng)果(guǒ)、哪(nǎ)个(gè)是(shì)桌(zhuō)子(zi)),并(bìng)自(zì)主生(shēng)成(chéng)一(yī)系(xì)列(liè)动(dòng)作(zuò)来(lái)完(wán)成(chéng)任(rèn)务(wu)。可(kě)以(yǐ)说(shuō),VLA正(zhèng)是(shì)未(wèi)来(lái)通(tōng)用(yòng)机(jī)器(qì)人(rén)的(de)“大(dà)脑(nǎo)”。
2023年(nián)7月(yuè),谷(gǔ)歌(gē)DeepMind就曾基于VLA架构推出RT-2模型,通过整合大语言模型与多模态数据训练,赋予机器人执行复杂任务的能力。其任务准确率较初代模型提升近一倍(从32%至62%),突破性地实现了垃圾分类等场景的零样本学习。
随后,VLA的理念很快被汽车公司关注,快速应用于汽车智能驾(jià)驶(shǐ)领(lǐng)域,如(rú)果(guǒ)说(shuō)2024年(nián)“端(duān)到(dào)端(duān)”是(shì)智(zhì)能驾驶领域最(zuì)火(huǒ)的(de)词汇(huì),那(nà)么(me)2025年(nián)非(fēi)“VLA“莫(mò)属(shǔ)。小(xiǎo)鹏(péng)汽(qì)车(chē)、理(lǐ)想(xiǎng)汽(qì)车等(děng)公(gōng)司(sī)都(dōu)发(fā)布(bù)了(le)各(gè)自(zì)的(de)VLA方(fāng)案(àn)。
但(dàn)相(xiāng)较(jiào)于(yú)智(zhì)能(néng)驾(jià)驶(shǐ)汽(qì)车(chē)动(dòng)辄(zhé)百(bǎi)亿(yì)参(cān)数(shù)、近(jìn)千(qiān)TOPS算(suàn)力(lì)的(de)海(hǎi)量(liàng)数(shù)据(jù),仍(réng)处(chù)于(yú)量(liàng)产初期的机器人训练数据集的参数量也大多只有100万至300万之间。更遑论机器人应用场景的多模态感知更丰富、执行动作更复杂、传感器数据更微观。

“我个人感觉,包括我们公司目前尝试下来,VLA+RL还是不够的。”王兴兴在大会上直言:
他点出关键问题:VLA模型在对真实世界交互时数据质量不足,即使在强化学习的加持下,该模型架构仍需继续升级优化。这一判断揭示了当前机器人学习效率低下的核心原因——用错误的方法处理再多数据也难有突破。
在VLA路线遭遇挑战的同时,另一种技术路径正在崭露头角:“世界模型”作为通向通用人工智能(AGI)的重要阶梯,正吸引越来越多研究者的(de)目(mù)光(guāng)。
这(zhè)种(zhǒng)模(mó)型(xíng)通(tōng)过(guò)学(xué)习(xí)环(huán)境(jìng)的(de)时(shí)空(kōng)动(dòng)态(tài),不(bù)仅(jǐn)能(néng)预(yù)测(cè)未(wèi)来(lái)状(zhuàng)态(tài),还(hái)能(néng)评(píng)估(gū)自(zì)身(shēn)行(xíng)动(dòng)的(de)后(hòu)果(guǒ)。
谷(gǔ)歌(gē)DeepMind于(yú)8月(yuè)6日(rì)发(fā)布(bù)的(de)第(dì)三代通用世界模型Genie 3成为大会热议话题。该系统能为机器人提供低成本虚拟训练环境,支持复杂任务的长时程模拟。王兴兴特别指出:“世界模型可能会比VLA模型更快落地,这一路线值得关注。”
世界模型的优势在于大幅降低训练成本。传统机器人训练需要大量物理试错,既耗时又耗资源;而高质量的世界模型能构建逼真的虚拟环境,使机器人在进入真实场景前已积累丰富“经验”。
另一个关键挑战是知识复用问题。王兴兴指出:“机器人学习新技能需从头训练,无法复用旧知识,亟需实现类似大模型的持续学习能力。” 这导致当前机器人技能学习效率低下,与人类举一反三的学习能力形成鲜明对比。
具身智能领域的“小样本高泛化”新范式成为突破方向。业内专家正研发通过少量数据训练出高算法能力的模型,而非依赖纯数据驱动,这将大幅提升机器人的适应能力和学习效率。
何时跨越“可用”到“好用”
面对未来2-5年的关键发展期,王兴兴清晰勾勒出智能机器人技术的三大重心:统一端到端智能机器人大模型、低成本高寿命硬件及超大批量制造、低成本大规模算力。这三大支柱将共同支撑机器人产业实现从“可用”到“好用”的关键跨越。
在硬件领域,降本增效已取得显著进展。宇树科技通过材料创新与模块化设计,已将人形机器人核心部件成本降低40%;同时,通过仿生关节设计,将关键部件寿命提升至3万小时以上。这些突破为人形机器人规模化商用奠定基础。
分布式算力网络将成为破解机器人算力瓶颈的关键。王兴兴指出,人形机器人本体算力有限,峰值功耗约100瓦,仅相当于几部手机的算力。“通过联邦学习实现多机器人数据共享,我们预计2027年将单台机器人训练成本降低至万元级。” 这一预测意味着机器人训练成本将迎来断崖式下降,为大规模部署扫清障碍。

王兴兴预测:“未来几年,全行业人形机器人出货量每年翻番都是有保证的。如果有更大的技术突破,甚至可能未来2-3年突然一年出货几十万台,甚至上百万台也有可能。” 这一爆发式增长将首先在工业场景显现,而汽车制造业有望成为最大受益者。
行业生态建设也在加速。杭州具身智能应用中试基地近期启动,整合宇树科技“最优本体”与华为、阿里云等“最强大脑”,打造 “算力+数据+模型+场景应用”生态,加速具身智能在工业领域的规模化落地。
机器人产业的“ChatGPT时刻”何时到来?王兴兴给出的预测是:最快未来1-2年,最慢3-5年。那个临界点的标志简单而直观——当一个人形机器人被带到陌生会场,能听懂“把这瓶水带给某位观众”的随机指令,并流畅完成任务,便宣告了机器人智能时代的真正开启。
支付宝扫一扫
微信扫一扫