自动驾驶 VLA(视觉 - 语言 - 动作模型)与华为的 WA(世界行为模型)主要有以下不同:
核心原理不同:VLA 是在大模型的语言模型相对成熟的背景下,把视频等信息转化成语言的 token 进行训练,再将其变成 action 来控制车的运动轨迹,即先 “理解世界”,再做决策,类似于人类驾驶时 “看懂场景→用语言 / 逻辑思考→行动” 的过程。而 WA 则是直接通过 vision 这样的信息输入实现控车,无需把各种信息转成语言,再通过语言大模型来控制车,它更像是端到端的强化版,模型学习到世界的动态规律后,能够预测结果并直接控制车辆。
架构流程不同:VLA 通常由视觉编码器、语言编码器、跨模态融合、动作生成四个关键模块组成,其流程是先通过视觉编码器提取视觉特征,语言编码器提取文本表征,然后通过跨模态融合将两者融合,最后由动作生成模块根据融合信息生成动作。而 WA 则省去了语言编码器这一环节,直接从视觉等信息输入到动作输出,流程更为简洁。
技术特点不同:VLA 的优势在于泛化性强,能应对复杂开放场景,因为它通过语言层进行了抽象和推理,类似于人类的逻辑思考过程,但它的训练成本极高,需要超大算力和多模态数据。WA 的优势是更贴近端到端,效率高、推理快,减少了语言这一层带来的复杂性、延迟和算力负担,但它可能缺乏语义层抽象,遇到极端场景时可能不够 “聪明”,缺乏跨域迁移的能力。
代表企业及发展方向不同:VLA 的代表企业有 OpenAI、特斯拉(部分方向)、小鹏、理想等,这些企业认为 VLA 具有更广阔的发展前景,虽然目前面临算力和数据等方面的挑战,但长期来看更具泛化力。而华为则是 WA 的代表企业,华为认为 WA 虽然目前难度较大,但能实现真正的自动驾驶,并且华为计划在 2026 年让辅助驾驶具备高速 L3 能力以及城区 L4 试点能力,2027 年进行无人干线物流试点、城区 L4 规模化商用,2028 年争取达到无人干线物流规模化商用。网友回复