对话卓驭于贝贝：物理AI不是资本故事，不上这条路线将无法存活

摘要 :

范式切换：从专家模型到基础模型当下的智能汽车领域，物理AI已成高频词汇，绝大多数智能驾驶算法厂商纷纷向此转型。卓驭在北京车展上发布了面向移动物理AI的原生多模态……

范式切换：从专家模型到基础模型

当下的智能汽车领域，物理AI已成高频词汇，绝大多数智能驾驶算法厂商纷纷向此转型。卓驭在北京车展上发布了面向移动物理AI的原生多模态基础模型。在卓驭科技副总裁于贝贝看来，算法厂商向物理AI转型不是为了迎合资本市场而编织的想象空间，而是一条关乎厂商存亡的生存法则。

“如果不上这条技术路线，很可能今后就跑不出来了。”于贝贝说。

这场全新竞赛让算法厂商进入新维度的淘汰赛，对手不再仅仅是同行，还包括从数字AI领域跨界而来的巨头、具身智能公司等。而真正能跑出来的玩家，其商业空间也将随之打开。

于贝贝认为，业界正处于一个范式切换的转折点。摆在面前的选择是：到底是沿着以前做专家模型这类小模型的范式继续做下去，还是果断切到大模型的范式上来。

卓驭坚定选择了后者。”大语言模型的历史经验告诉我们，最终跑出来的是做基座模型的这一批人，以前那些专注于看病的专家模型，其实都没有真正跑出来。在物理AI领域，我们相信演进的规律是一样的。”于贝贝指出。

卓驭提出的”原生多模态”概念，源于对VLA 1.0阶段的反思。于贝贝解释称，早期的做法是将视觉与动作对齐，把大语言模型从后面附加上去，这种方式存在对语言和语义理解的局限性，以及响应延迟等问题。

“我们认为把所有信息都转译到一个语言空间里去理解，是一种反常识的做法。真正合理的路径是，视觉、音频、动作、规则或推理都作为独立模态，在预训练阶段一并加入，让模型在多种模态的共同空间里理解物理世界。”

目前卓驭车端模型尚未开放语言输入，这与小鹏发布的VLA 2.0方向类似。底层骨干网络已经改变，行业正处于范式切换的转折点。

在训练基础模型时，卓驭的数据构成颇为独特：30%来自车辆采集的真实数据，30%来自机器人，另外40%来自互联网。于贝贝指出，移动能力的数据实际上只需获取第一人称视角的移动视频即可，不一定非要是乘用车或商用车，人走路时拍摄的视频同样有效，这类数据规模庞大且相对容易获取。

2025年，行业基本都切换到了数据驱动，模型基础能力已达约70分水平。后续从70分提升到90分，仍需做后训练、采集数据和泛化，但差距已从当初的40分到80分缩小为70分到90分。随着模型能力进一步提高，目标是做到零样本泛化、”开箱即用”。

于贝贝强调，具身智能必须部署到具体硬件上，分发过程远比数字AI困难。”建立一个分发平台和分发网络，也是其中非常关键的一环，这关乎如何把这个能力具体地部署到移动载具、部署到物理实体上。”

卓驭在分发方面形成了多层次体系：硬件层面与合作伙伴定义硬件标准，进行硬件授权与分发；软件层面将移动能力封装成SDK，提供给不具备后训练能力的合作伙伴；还可以将模型开源，或直接做成”移动智能体”。

基于移动基座模型，卓驭正尝试打破传统Tier 1″卖硬件、收开发费”的单一逻辑，其商业模式已形成清晰的二元结构：

第一增长曲线：面向乘用车或商用车，销售硬件、软件许可，收取开发费和非重复性工程费用。

第二增长曲线：将乘用车验证过的技术拓展至Robotaxi、RoboVan等L4级领域。虽也卖硬件，但一般不收取软件许可费，软件部分通过利润分成获取收益。L4业务作为服务提供方，需持续参与软件迭代甚至运营，因此演变为订阅和分润模式。

值得注意的是，卓驭还在探索”动作令牌（Action Token）”的新型收费方式——消费级电子设备将视频流传输给云端推理模型，模型下发轨迹，按使用次数或行驶里程收费，这又是另一种订阅形态。

于贝贝认为，L2和L4是完全不同的商业模式。L4应先在城区落地，再拓展至高速场景。从工程安全角度看，同等性质的事故在高速上产生的伤害程度远比城区严重。

面对行业洗牌，于贝贝指出卓驭的护城河体现在两点：第一是模型能力，迭代范式和最终模型架构尚无定论；第二是分发能力，如何建立分发平台和网络、创建生态、联合不同合作伙伴共同分发，是非常高的门槛。

“新一轮的行业洗牌可能即将开始。所有做自动驾驶的公司，应该都会在不久的将来转变为移动物理AI公司。”于贝贝预判道。

这场跨界竞争中，算法厂商的对手已经不再仅仅是曾经的同行，还包括从数字AI领域跨界而来的巨头。而物理AI的终极范式究竟是什么，目前业界尚无定论，一切仍处于探索之中。