【导语】6月11日,自动驾驶领域的创新者元戎启行在2025年火山引擎Force原动力大会上宣布,其先进的VLA(视觉—语言—动作)模型将于(yú)今(jīn)年(nián)第(dì)三(sān)季(jì)度面向消费者市场推出,并计划年内上车五款车型。VLA模型作为多模态技术的突破,能够理解复杂交通场景、识别异形障碍物、解读文字信息并执行语音指令,为驾驶带来全新智能体验。此次发布标志着智能驾驶技术迈入新阶段,有望重塑市场格局,引领汽车产业智能化转型。

6月11日,自动驾驶公司元戎启行在2025年火山引擎Force原动力大会上宣布,其VLA模型将于今年第三季度推向消费者市场,并预计在年内上车五款车型。

元戎启行VLA模型:量产在即,年内上车五款车型

图片来源:元戎启行

VLA模型即视觉—语言—动作模型,是元戎启行在端到端模型基础上引入大语言模型后升级而成的多模态模型,可理解交通场景中复杂交互事件,识别异形障碍物,理解文字信息并且可以根据语音指令做出对应驾驶决策。

目前,元戎启行已完成该模型的真实道路测试。其中,VLA模型支持激光雷达方案与纯视觉方案,将率先搭载在NVIDIA Drive Thor芯片上,后续元戎启行还将通过技术优化,让VLA模型可以适配更多芯片平台。

此次VLA模型的发布,展示了其四大核心功能,即空间语义理解、异形障碍物识别、文字类引导牌理解和语音控车。

元戎启行VLA模型:量产在即,年内上车五款车型

图片来源:元戎启行

具体来看,空间语义理解功能相当于驾驶“透视眼”,能够全维度解构驾驶环境,精准破解桥洞通行、公交车遮挡视野等动静态驾驶盲区场景驾驶风险;异形障碍物识别功能如同驾驶 “百事通”,可识别各种异形障碍物;文字类引导牌理解功能能准确理解并执行文字指示;语音交互控车功能则如同驾驶 “应答灵”,可与用户高效交流,根据语音指令做出对应驾驶决策,交互更拟人。

元戎启行CEO周光强调,VLA模型是实现物理世界agent的关键技术,可连接多种模态,打通物理世界与数字世界壁垒,具有完善任务规划和执行能力,此次与火山引擎合作将推动双方技术在多领域落地,促进生产力进阶。

VLA模型的量产上车,将为消费者带来更智能、便捷和安全的驾驶体验,推动汽车产业向智能化进一步转型,也有望重塑智能驾驶市场格局,助力元戎启行在自动驾驶领域取得更大市场份额和竞争优势,为行业发展树立新(xīn)标(biāo)杆(gān),开(kāi)启(qǐ)智(zhì)能(néng)驾(jià)驶(shǐ)新时代。