【导语】VLA(Vision-Language-Action)司机大模型作为全自动驾驶领域的热门技术,近期备受瞩目。理想、长城、奇瑞等多家车企纷纷推进其研发与落地,将其视为智驾竞赛的核心。然而,在智驾行业如火如荼地推进VLA模型之际,宇树科技CEO王兴兴却对其提出了质疑,认为VLA模型存在数据不足等问题,并指出世界模型可能是更好的解决方案。这一观点引发了行业内外的广泛讨论,VLA模型的真实价值和未来走向成为关注焦点。
“VLA能够解决全自动驾驶,至于VLA是否是效率最高的方式还要打个问号。但现阶段VLA是能力最强的架构。”
李想在5月的《理想AI Talk第二季》里,提前为理想i8身上的最大卖点——VLA司机大模型,埋下了伏笔。
以至于两个月后的理想i8发布会,有大约四分之一的时间都用在了描绘VLA司机大模型多么强大上。
事实(shí)上(shàng),不(bù)只(zhǐ)是(shì)理(lǐ)想(xiǎng),长(zhǎng)城(chéng)、奇(qí)瑞(ruì)、极(jí)氪(kè)、小(xiǎo)鹏(péng)、零(líng)跑(pǎo)等(děng)车(chē)企(qǐ)均(jūn)在(zài)推(tuī)进(jìn)VLA模(mó)型(xíng)的(de)研(yán)发(fā)和(hé)落(luò)地(de)。
从(cóng)整(zhěng)个(gè)智(zhì)驾(jià)行(xíng)业(yè)的(de)角度来看,VLA模(mó)型(xíng)也(yě)早已取代端到端模型成为新一轮智驾竞赛的核心。
不过,就在当下智驾行业内的人风风火火大干VLA模型的时候,宇树科技CEO王兴兴,这位来自机器人行业的大佬,却毫不留情的给VLA司机大模型浇了一盆冷水。
相对“傻瓜”的VLA模型
8月9日,王兴兴在2025世界机器人大会上直言VLA模型是一个相对“傻瓜式的架构”。
同时,王兴兴还表示,自己对VLA模型抱一个“比较怀疑的态度”。

此言一出,舆论立刻炸开了锅。极佳视界CEO黄冠甚至在朋友圈中吐槽王兴兴的观点“太业余”,并建议王兴兴以后“不要谈AI了”。
在判断王兴兴的话究竟是“针砭之言”还是“无稽之谈”之前,我们先来了解下VLA司机大模型究竟是什么。
VLA指的是Vision-Language-Action,也就是视觉-语言-动作,它能够在端到端的基础上,同时通过视觉信息和语音信息来执行驾驶动作。
李想把它的产品形态比喻为“司机Agent(智能体)”,对比的对象自然是同为司机的人类。
你打车的时候怎么跟司机沟通,就可以怎么跟它沟通。
短平快的指令就由端侧的VLA直接处理,如果指令很复杂,需要理解,就送去云端的基座模型先解析(xī)翻(fān)译(yì),然(rán)后(hòu)再(zài)交(jiāo)给VLA。
听到这你是不是会有种奇妙的感觉:这不就是有个机器人吗?
是的,VLA模型虽然因智驾而被更多人所熟知,但它最早其实是应(yīng)用(yòng)在(zài)机器人身上的。
2024年10月,斯坦福大学发布了全球首个开源VLA模型OpenVLA,成功验证了VLA模型在机器人的实际操作中拥有更强的泛化能力。
此后经过在机器人行业和智驾行业的落地应用后,VLA模型的确展现出了十分强大的实用价值。
它更像是端到端和VLM用上了融合卡,在面对一些人类都头疼的潮汐车道、长时序推理等特殊场景时,VLA思考理解的方式能更像人,处理的方式则比人更好。
如果说此前的VLM还局限在2D图像上,那VLA则已经拥有一个完整的大脑,能通过语言和逻辑推理能力解决问题。
我们《超级开箱》也提前体验了,感兴趣的朋友可以点击视频观看。
听起来似乎VLA就是打开自动驾驶大门的那把钥匙,但在王兴兴看来,现阶段的VLA模型存在一道非常棘手的问题,就是它所采集的真实世界交互的数据是不够的。
为了解决这一问题,王兴兴说他们尝试了在VLA模型的基础上再加上一个“RL”,也就是强化学习,但最终发现还是“不够用”。
相对于VLA+RL,王兴兴发现更好的解决方案其实是世界模型。
王兴兴表示,宇树在去年就开始利用预训练的动作视频,去控制机器人按照视频内容去执行对应动作。

在王兴兴看来,由视频驱动的世界模型这一技术方向,可能比VLA模型的收敛概率还大。
但对于世界模型究竟能不能实现技术收敛,王兴兴却又表示“不敢打包票”。
关键原因就在于,王兴兴认为世界模型太考验视频生成质量了,导致对GPU的消耗有点大。
但王兴兴也表示,对于机器人来说,视频生成质量并不需要很高。
值得注意的是,在王兴兴公开怀疑VLA之前,理想i8发布会就讲过了类似的问题(tí),并(bìng)且(qiě)也(yě)谈(tán)到(dào)了(le)世(shì)界(jiè)模型。
箭头渐渐指向世界模型
在理想i8发布会上,理想自动驾驶研发高级副总裁郎咸朋也谈到了数据不足对VLA模型的负面影响。
郎咸朋分享道,在人类驾驶中(zhōng),高(gāo)速(sù)和(hé)城(chéng)市快速路占了总里程的60%多,而乡间小路的里程只占了1%不到,所以人开车的比例是非常不均衡的,如果以此来进行训练的话,那么效果是非常差的。

针对这一问题,郎咸朋表示理想的解决方案是开发世界模型。
世界模型能够生成符合真实物理世界规律的场景,进而弥补实车数据的不足。
在汽车行业,相对于理想,蔚来对世界模型的应用更加深入。
早在去年的7月份,蔚来就发布了世界模型,只是一直到今(jīn)年(nián)5月(yuè)份(fèn),才(cái)推(tuī)送(sòng)了(le)首(shǒu)个(gè)版(bǎn)本(běn)的(de)世(shì)界(jiè)模(mó)型(xíng),但(dàn)就(jiù)实(shí)际(jì)效(xiào)果(guǒ)来(lái)看(kàn),世(shì)界(jiè)模(mó)型(xíng)的(de)表(biǎo)现(xiàn)起(qǐ)码(mǎ)到(dào)现(xiàn)在(zài)还(hái)没(méi)有(yǒu)那(nà)么惊艳。
不过,根据蔚来发布的官方信息,蔚来世界模型对空间理解的能力和长时序的建模能力会更强,进而应对场景表现也会越来越好。
既然如此,那(nà)就(jiù)先(xiān)等(děng)等看吧。
此外,王兴兴对VLA模型提出“怀疑”后,国家地方共建人形机器人创新中心首席科学家江磊在世界机器人大会也表达了自己的观点。
江磊表示,感知-认知-决策-执行的闭环尚未闭合,VLA模型需要重构,从而寻求新的解决范式。
国际机器人联合会技术委员会主席亚历山大·维尔(Alexander Verl)则在机器人大会上更直白地讲起了VLA模型在技术上的局限,主要包括7个方面,分别是:
无记忆能力;感知缺陷;动作缺失;物体混淆;成功率偏低;语言理解缺陷;反馈缺失。

与(yǔ)此(cǐ)同(tóng)时(shí),维(wéi)尔(ěr)还(hái)指出,VLA模型训练成本高昂,在不含训练数据制备成本的前提下,也会达到数千万美元。
至于这些问题的解决方案,维尔的想法与王兴兴基本一致,也是利用世界模型去学习。
写在最后
VLA模型是当前智驾行业最热门的方向,更多的声音都是在讨论它有多么强大和有价值。
因此,王兴兴的“怀疑”声音就不免有些刺耳。
但刺耳归刺耳,从技术发展状况来看,VLA大模型注定只是智驾走向终极之前的中转站。
所以,公开阐释对VLA的怀疑,王兴兴其实只是赶在了智驾行业前面。
而智驾最终是在世界模型那里,还在其他解决方案那里收敛,或许还需要更多的探索和讨论。
支付宝扫一扫
微信扫一扫