范式切换:从专家模型到基础模型 当下的智能汽车领域,物理AI已成高频词汇,绝大多数智能驾驶算法厂商纷纷向此转型。卓驭在北京车展上发布了面向移动物理AI的原生多模态……
范式切换:从专家模型到基础模型
当下的智能汽车领域,物理AI已成高频词汇,绝大多数智能驾驶算法厂商纷纷向此转型。卓驭在北京车展上发布了面向移动物理AI的原生多模态基础模型。在卓驭科技副总裁于贝贝看来,算法厂商向物理AI转型不是为了迎合资本市场而编织的想象空间,而是一条关乎厂商存亡的生存法则。
“如果不上这条技术路线,很可能今后就跑不出来了。”于贝贝说。
这场全新竞赛让算法厂商进入新维度的淘汰赛,对手不再仅仅是同行,还包括从数字AI领域跨界而来的巨头、具身智能公司等。而真正能跑出来的玩家,其商业空间也将随之打开。
于贝贝认为,业界正处于一个范式切换的转折点。摆在面前的选择是:到底是沿着以前做专家模型这类小模型的范式继续做下去,还是果断切到大模型的范式上来。
卓驭坚定选择了后者。”大语言模型的历史经验告诉我们,最终跑出来的是做基座模型的这一批人,以前那些专注于看病的专家模型,其实都没有真正跑出来。在物理AI领域,我们相信演进的规律是一样的。”于贝贝指出。
原生多模态:不只是视觉与语言的对齐
卓驭提出的”原生多模态”概念,源于对VLA 1.0阶段的反思。于贝贝解释称,早期的做法是将视觉与动作对齐,把大语言模型从后面附加上去,这种方式存在对语言和语义理解的局限性,以及响应延迟等问题。
“我们认为把所有信息都转译到一个语言空间里去理解,是一种反常识的做法。真正合理的路径是,视觉、音频、动作、规则或推理都作为独立模态,在预训练阶段一并加入,让模型在多种模态的共同空间里理解物理世界。”
目前卓驭车端模型尚未开放语言输入,这与小鹏发布的VLA 2.0方向类似。底层骨干网络已经改变,行业正处于范式切换的转折点。
数据架构:30%真车数据+30%机器人+40%互联网
在训练基础模型时,卓驭的数据构成颇为独特:30%来自车辆采集的真实数据,30%来自机器人,另外40%来自互联网。于贝贝指出,移动能力的数据实际上只需获取第一人称视角的移动视频即可,不一定非要是乘用车或商用车,人走路时拍摄的视频同样有效,这类数据规模庞大且相对容易获取。
2025年,行业基本都切换到了数据驱动,模型基础能力已达约70分水平。后续从70分提升到90分,仍需做后训练、采集数据和泛化,但差距已从当初的40分到80分缩小为70分到90分。随着模型能力进一步提高,目标是做到零样本泛化、”开箱即用”。
分发能力:被忽视的核心壁垒
于贝贝强调,具身智能必须部署到具体硬件上,分发过程远比数字AI困难。”建立一个分发平台和分发网络,也是其中非常关键的一环,这关乎如何把这个能力具体地部署到移动载具、部署到物理实体上。”
卓驭在分发方面形成了多层次体系:硬件层面与合作伙伴定义硬件标准,进行硬件授权与分发;软件层面将移动能力封装成SDK,提供给不具备后训练能力的合作伙伴;还可以将模型开源,或直接做成”移动智能体”。
商业模式的二元结构:L2卖许可,L4做分润
基于移动基座模型,卓驭正尝试打破传统Tier 1″卖硬件、收开发费”的单一逻辑,其商业模式已形成清晰的二元结构:
第一增长曲线:面向乘用车或商用车,销售硬件、软件许可,收取开发费和非重复性工程费用。
第二增长曲线:将乘用车验证过的技术拓展至Robotaxi、RoboVan等L4级领域。虽也卖硬件,但一般不收取软件许可费,软件部分通过利润分成获取收益。L4业务作为服务提供方,需持续参与软件迭代甚至运营,因此演变为订阅和分润模式。
值得注意的是,卓驭还在探索”动作令牌(Action Token)”的新型收费方式——消费级电子设备将视频流传输给云端推理模型,模型下发轨迹,按使用次数或行驶里程收费,这又是另一种订阅形态。
于贝贝认为,L2和L4是完全不同的商业模式。L4应先在城区落地,再拓展至高速场景。从工程安全角度看,同等性质的事故在高速上产生的伤害程度远比城区严重。
护城河:模型能力+分发网络
面对行业洗牌,于贝贝指出卓驭的护城河体现在两点:第一是模型能力,迭代范式和最终模型架构尚无定论;第二是分发能力,如何建立分发平台和网络、创建生态、联合不同合作伙伴共同分发,是非常高的门槛。
“新一轮的行业洗牌可能即将开始。所有做自动驾驶的公司,应该都会在不久的将来转变为移动物理AI公司。”于贝贝预判道。
这场跨界竞争中,算法厂商的对手已经不再仅仅是曾经的同行,还包括从数字AI领域跨界而来的巨头。而物理AI的终极范式究竟是什么,目前业界尚无定论,一切仍处于探索之中。
微信扫一扫