【导语】在2025年世界机器人大会上,宇树科技创始人王兴兴抛出反共识观点,指出限制机器人产业爆发的核心在于模型架构的落后,而非数据不足。这一论断犹如一盆冷水,浇在了全球疯狂收集数据的机器人厂商头上。随着机器人产业的繁荣与资本热潮的涌动,王兴兴揭示了AI大脑跟不上硬件发展的关键问题,并预测了具身智能大模型滞后对机器人实际应用的影响。同时,他也探讨了VLA遇冷、世界模型崛起等技术路径,以及未来机器人产业实现从“可用”到“好用”的关键跨(kuà)越(yuè)。
2025年世界机器人大会上,宇树科技创始人王兴兴抛出一个反共识观点:限制机器人产业爆发的核心不是数据不足,而是模型架构的落后——这犹(yóu)如(rú)一(yī)盆(pén)冷(lěng)水(shuǐ),浇(jiāo)在(zài)疯(fēng)狂收集数据的机器人厂商头上。
北京亦庄,2025世界机器人大会主论坛现场,宇树科技CEO王兴兴站在演讲台前,面对全球机器人产业精英,抛出了一个观点:“目前全球范围内,大家对机器人数据这个问题关注度有点太(tài)高(gāo)了(le)。”
在(zài)他看来:“现在最大的问题其实是模型问题,而不是数据问题。”
会场内一阵低声议论。在OpenAI成功范式影响下,全球机器人产业正疯狂收集数据,各地机器人数采中心如雨后春笋般涌现。王兴兴的论断犹如一盆冷水,泼在了整个行业的发展思路上。
当硬件够用,Ai掉队
2025年,机器人产业正迎来前所未有的繁荣景象。先是智元机器人以大手笔入主上纬新材,引发“借壳上市”的猜测,股价连续涨停10次,每次涨幅达20%,刷新了A股市场的纪录;随后,宇树科技年内四次传出IPO消息,直至中国证监会公布其上市辅导备案报告,IPO的悬念终于尘埃落定。
在近日开幕的(de)世(shì)界(jiè)机(jī)器(qì)人(rén)大(dà)会(huì)展厅内,灵活舞动的人形机器人随处可见,展台前观众络绎不绝。超过150款人形机器人同台亮相,创下了国内有史以来最大规模的人形机器人集体展示纪录。

王兴兴在演讲中透露,今年上半年,机器人行业增速惊人,整机及零部件厂商的平均增长率达到了50%-100%,这一增速在行业历史上极为罕见。
在这场行业狂奔的背后,是资本热潮的涌动。据驾趣智库不完全统计,截至8月7日,今年该领域已发生超过百起融资事件,累计融资金额接近300亿元(未披露的融资额未纳入统计)。相比之下,去年全年共发生72起融资事件,累计融资金额约为130.23亿元。今年以来的投资数量和金额已远超去年全年数据。
然而繁荣背后暗藏隐忧。王兴兴指出一个关键矛盾:“机器人硬件性能虽然还不够好,但目前是够用的。目前最大的挑战还是具身智能的AI完全不够用。这也是限制人形机器人大规模应用的最大点。”
这一判断得到产业数据的佐证。今年以来,从机器人首登央视春晚跳舞,到全球首个机器人半程马拉松“洋相百出”、即将开幕的全球首届人形机器人运动会,再到本届世界机器人大会和全国大学生机器人大赛等密集活动,人形机器人在表演、格斗等娱乐场景大放异彩,但在真正需要“干活”的工业场景,应用深度仍然有限。

“机器人的应用场景究竟为何?没有找准这一定位,就很难针对性的做技术突破。”在与某位业内技术大拿沟通时,他如是向驾趣智库坦言,是单纯陪伴,还是家务助手,抑或需要更精密操作,这些都需要不同的技术实现。
而在王兴兴看来,很多技术的进步是需要时间的,当下马上让一个(gè)机(jī)器(qì)人(rén)去(qù)家(jiā)里(lǐ)干(gàn)点(diǎn)有(yǒu)实(shí)际(jì)价(jià)值(zhí)的(de)活(huó)还(hái)不(bù)太(tài)现(xiàn)实(shí),如(rú)果(guǒ)只(zhǐ)是(shì)做(zuò)个(gè)Demo(演(yǎn)示(shì))或(huò)者(zhě)示(shì)例(lì)是(shì)没(méi)问(wèn)题(tí)的(de)。“我(wǒ)们(men)去(qù)年(nián)就(jiù)跟(gēn)汽(qì)车(chē)工(gōng)厂(chǎng)合作,在工厂落地部署机器人,但是真正让机器人产生比较大的价值,当下是不太现实的。”正如早期电脑诞生时,也同样不具备普适性、实用性。
“当前这个时点有点像ChatGPT出来之前的1到3年,”王兴兴如此比喻机器人大模型的发展阶段,“整个业界已经发现了类似的方向以及技术路线(xiàn),但(dàn)是(shì)没(méi)人(rén)把(bǎ)它(tā)做(zuò)出(chū)来(lái)。”
具(jù)身(shēn)智(zhì)能(néng)大(dà)模(mó)型(xíng)的(de)滞(zhì)后(hòu)已(yǐ)成(chéng)为(wèi)制(zhì)约(yuē)机(jī)器(qì)人(rén)真(zhēn)正(zhèng)“干(gàn)活(huó)”的(de)核(hé)心(xīn)挑(tiāo)战(zhàn)。当(dāng)硬(yìng)件(jiàn)准(zhǔn)备(bèi)就(jiù)绪(xù),AI大(dà)脑(nǎo)却(què)跟(gēn)不(bù)上(shàng),这(zhè)场(chǎng)产(chǎn)业(yè)革命的步伐因此(cǐ)被(bèi)拖(tuō)慢(màn)。
VLA遇(yù)冷(lěng),世(shì)界(jiè)模(mó)型(xíng)崛(jué)起(qǐ)
面(miàn)对(duì)具(jù)身(shēn)智(zhì)能(néng)的(de)模(mó)型(xíng)瓶(píng)颈(jǐng),全球(qiú)科(kē)研(yán)团(tuán)队(duì)正(zhèng)探(tàn)索(suǒ)不(bù)同(tóng)技(jì)术(shù)路径。其(qí)中(zhōng)VLA+RL(视(shì)觉(jué)-语(yǔ)言(yán)-动(dòng)作(zuò)模(mó)型(xíng)+强(qiáng)化(huà)学(xué)习(xí))路线(xiàn)获(huò)得(de)了(le)众(zhòng)多(duō)顶尖机构的青睐,被视为通向通用机器人智能的可行之路。
那么什么是VLA呢?简单来说,这类模型旨在将视觉感知、语言理解和物理动作融为一体,让机器人能够听懂人的指令(“把桌子上的苹果拿给我”),看懂当前的环境(识别出哪个是苹果、哪个是桌子),并自主生成一系列动作来完成任务。可以说,VLA正是未来通用机器人的“大脑”。
2023年7月,谷歌DeepMind就曾基于VLA架构推出RT-2模型,通过整合大语言模型与多模态数据训练,赋予机器人执行复杂任务的能力。其任务准确率较初代模型提升近一倍(从32%至62%),突破性地实现了垃圾分类等场景的零样本学习。
随后,VLA的理念很快被汽车公司关注,快速应用于汽车智能驾驶领域,如果说2024年“端到端”是智能驾驶领域最火的词汇,那么2025年非“VLA“莫属。小鹏汽车、理想汽车等公司都发布了各自的VLA方案。
但相较于智能驾驶汽车动辄百亿参数、近千TOPS算力的海量数据,仍处于量产初期的机器人训练数据集的参数量也大多只有100万至300万之间。更遑论机器人应用场景的多模态感知更丰富、执行动作更复杂、传感器数据更微观。

“我个人感觉,包括我们公司目前尝试下来,VLA+RL还是不够的。”王兴兴在大会上直言(yán):
他(tā)点(diǎn)出(chū)关键问(wèn)题(tí):VLA模(mó)型(xíng)在(zài)对(duì)真(zhēn)实(shí)世(shì)界(jiè)交(jiāo)互(hù)时(shí)数(shù)据(jù)质(zhì)量(liàng)不(bù)足(zú),即(jí)使(shǐ)在(zài)强(qiáng)化(huà)学(xué)习(xí)的加持下,该模型架构仍需继续升级优化。这一判断揭示了当前机器人学习效率低下的核心原因——用错误的方法处理再多数据也难有突破。
在VLA路线遭遇挑战的同时,另一(yī)种(zhǒng)技(jì)术(shù)路径正(zhèng)在(zài)崭(zhǎn)露(lù)头(tóu)角(jiǎo):“世(shì)界(jiè)模(mó)型(xíng)”作为通向通用人工智能(AGI)的重要阶梯,正吸引越来越多研究者的目光。
这种模型通过学习环境的时空动态,不仅能预测未来状态,还能评估自身行动的后果。
谷歌DeepMind于8月6日发布的第三代通用世界模型Genie 3成为大会热议话题。该系统能为机器人提供低成本虚拟训练环境,支持复杂任务的长时程模拟。王兴兴特别指出:“世界模型可能会比VLA模型更快落地,这一路线值得关注。”
世界模型的优势在于大幅降低训练成本。传统机器人训练需要大量物理试错,既耗时又耗资源;而高质量的世界模型能构建逼真的虚拟环境,使机器人在进入真实场景前已积累丰富“经验”。
另一个关键挑战是知识复用问题。王兴兴指出:“机器人学习新技能需从头训练,无法复用旧知识,亟需实现类似大模型的持续学习能力。” 这导致当前机器人技能学习效率低下,与人类举一反三的学习能力形成鲜明对比。
具身智能领域的“小样本高泛化”新范式成为突破方向。业内专家正研发通过少量数据训练出高算法能力的模型,而非依赖纯数据驱动,这将大幅提升机器人的适应能力和学习效率。
何时跨越“可用”到“好用”
面对未来2-5年的关键发展期,王兴兴清晰勾勒出智能机器人技术的三大重心:统一端到端智能机器人大模型、低成本高寿命硬件及超大批量制造、低成本大规模算力。这三大支柱将共同支撑机器人产业实现从“可用”到“好用”的关键跨越。
在硬件领域,降本增效已取得显著进展。宇树科技通过材料创新与模块化设计,已将人形机器人核心部件成本降低40%;同时,通过仿生关节设计,将关键部件寿命提升至3万小时以上。这些突破为人形机器人规(guī)模(mó)化(huà)商(shāng)用(yòng)奠(diàn)定(dìng)基(jī)础(chǔ)。
分(fēn)布(bù)式(shì)算(suàn)力(lì)网(wǎng)络(luò)将(jiāng)成(chéng)为(wèi)破(pò)解(jiě)机(jī)器(qì)人(rén)算(suàn)力(lì)瓶(píng)颈(jǐng)的(de)关键。王(wáng)兴(xìng)兴(xìng)指(zhǐ)出(chū),人(rén)形(xíng)机器人本体算力有限,峰值功耗约100瓦,仅相当于几部手机的算力。“通过联邦学习实现多机器人数据共享,我们预计2027年将单台机器人训练成本降低至万元级。” 这一预测意味着机器人训练成本将迎来断崖式下降,为大规模部署扫清障碍。

王兴兴预测:“未来几年,全行业人形机器人出货量每年翻番都是有保证的。如果有更大的技术突破,甚至可能未来2-3年突然一年出货几十万台,甚至上百万台也有可能。” 这一爆发式增长将首先在工业场景显现,而汽车制造业有望成为最大(dà)受(shòu)益(yì)者(zhě)。
行(xíng)业(yè)生(shēng)态(tài)建(jiàn)设(shè)也(yě)在(zài)加(jiā)速(sù)。杭(háng)州(zhōu)具(jù)身(shēn)智(zhì)能(néng)应(yīng)用(yòng)中(zhōng)试(shì)基(jī)地(de)近(jìn)期(qī)启(qǐ)动(dòng),整(zhěng)合(hé)宇(yǔ)树(shù)科(kē)技“最优本体”与华为、阿里云等“最强大脑”,打(dǎ)造(zào) “算(suàn)力(lì)+数(shù)据(jù)+模(mó)型(xíng)+场(chǎng)景(jǐng)应(yīng)用(yòng)”生(shēng)态(tài),加(jiā)速(sù)具(jù)身(shēn)智(zhì)能(néng)在(zài)工(gōng)业(yè)领(lǐng)域的(de)规(guī)模(mó)化(huà)落(luò)地(de)。
机(jī)器(qì)人(rén)产(chǎn)业(yè)的(de)“ChatGPT时(shí)刻(kè)”何(hé)时(shí)到(dào)来(lái)?王(wáng)兴(xìng)兴(xìng)给(gěi)出(chū)的(de)预(yù)测(cè)是(shì):最(zuì)快(kuài)未(wèi)来(lái)1-2年(nián),最(zuì)慢(màn)3-5年(nián)。那(nà)个(gè)临(lín)界(jiè)点(diǎn)的(de)标(biāo)志(zhì)简(jiǎn)单(dān)而(ér)直(zhí)观(guān)——当(dāng)一(yī)个(gè)人(rén)形(xíng)机(jī)器(qì)人(rén)被(bèi)带(dài)到(dào)陌(mò)生(shēng)会(huì)场(chǎng),能(néng)听(tīng)懂(dǒng)“把(bǎ)这(zhè)瓶(píng)水(shuǐ)带(dài)给(gěi)某(mǒu)位(wèi)观(guān)众(zhòng)”的(de)随(suí)机(jī)指(zhǐ)令(lìng),并(bìng)流(liú)畅(chàng)完(wán)成(chéng)任(rèn)务(wu),便(biàn)宣(xuān)告(gào)了(le)机(jī)器(qì)人(rén)智(zhì)能(néng)时(shí)代(dài)的(de)真(zhēn)正(zhèng)开(kāi)启(qǐ)。
支付宝扫一扫
微信扫一扫