卓驭的技术美学:从“为学日益”到“为道日损”的智驾之道
大模型领域前一阵有个刷屏新闻,现代知名音乐制作人Rick Rubin和Anthropic合作,对《道德经》做了个二创,通过改编老子的原文,写了部《编码之道》(The Way of Code),对AI编码这种新开发方法做了一次哲学诠释,受到社区的热烈追捧。
其实技术的进步往往是这样,技术自身固然重要,但其背后的理念也许更重要,由于它才能决定技术进步到底要给何处去。
不久前,我拜访了位于深圳的卓驭科技,一家“又新又旧”的企业(稍后会解释),并和卓驭科技CEO沈劭劼,阿里云智能集团公共云事业部副总裁、AI汽车行业总经理李强一起做了一场深度的播客访谈。
在剪辑回放这期播客视频时,当我看到沈劭劼解释“何故把智驾体系,从原来百万代码的制度逻辑,改成端到端逻辑”时,我脑海里突然冒出老子的一句话:为学日益,为道日损。
老子原本表达的意思是:当大家刚开始进修某个领域时,总是先去掌握更多的姿势、诀窍和制度,就像往背包里不断装物品,这就是“为学日益”;但当大家真正精通这个领域时,大家开始明白啥子是本质的、啥子是多余的,开始学会舍弃和简化,最终抓住事物的核心规律,这是“为道日损”。
至于何故我会联想到这句话?大家就得要领会卓驭这次技术路线转换蕴藏的深度哲学,从卓驭科技的进步原点说起了。接下来,大家要讲的一个基因传承和创造的企业故事。
另一种L4:天空到地面的技术传承
大家刚才讲卓驭科技又新又旧。卓驭之新,在于它在法律意义上一个很年轻的企业,2024年才成立;卓驭之旧,是说它的技术、业务本身并不年轻,极有沉淀。从无人机产品出发,到投身智能驾驶技术,卓驭的相关职业早在2024年开始了。
无人机和汽车智驾,虽然壹个在天上,壹个在地上,但有天然的技术关联,它们都可以用L1到L4这样的指标体系,描述智能驾驶的程度。而用沈劭劼的话说,无人机其实早就已经到了L4了,缘故很简单,“由于天上没有人来人往”。
因此在2024年,沈劭劼决定和团队一起挑战“机器人学的皇冠”——智能驾驶。然而独立运作的第一步,卓驭先思索的还不仅是技术难题,而是商业玩法难题。
沈劭劼说,最开始其实花了很长时刻去想到底如何样才一个可行的商业玩法,能让业务活下去,并进步壮大。他回忆道,团队想过的商业玩法包括Robotaxi、低速物流车、干线物流等等,方方面面都有。虽然玩法想过很多,但 “造车”这个选项很早就排除掉了,“想了半天就没想到如何能把车造好”。
不过,不造车只是不造整车硬件,不代表不做智驾体系的硬件。由于团队天然具备硬件基因,因此沈劭劼说:“软件算法之外,大家做硬件包括传感器,特别是对于软硬一体化技术栈的协同优化,有天然优势”。这种技术底蕴最终决定了卓驭的市场定位:做Tier 1(一级供应商)。“一级供应商的核心能力不是某壹个,真正重要的是兜底的能力,也就是提供'交钥匙'方法的能力。”
可是,他随后也花了个很长的篇幅解释,能“交钥匙”兜底,只代表能力出众,却不代表卓驭只提供这一种交付方法,“不然太霸道了,会失去很多合作机会”。
实际上,卓驭和主机厂的合作交付可谓多种多样,除了交钥匙,还有:硬件+软件集成、软硬件产品供应、纯软件方法,甚至是IP授权和主机厂自研赋能。沈劭劼认为,怎样交付其实不重要,最重要的是大家的利益共同点一致:把车卖好。数字见证了卓驭技术沉淀和业务逻辑的成功:目前卓驭已经建立合作的客户有9家,合作的汽车品牌16个。
对于这些成就,在访谈中,李强也给出了阿里云的视角:在数字化、智能化的时代,一家企业的进步,一定会反映在算力消耗上。算力消耗是企业进步的晴雨表,“在卓驭的这张晴雨表上,大家很明显能够看到卓驭的业务提高”。
一次“戛然而止”,一种“范式跃迁”
大家先来讨论一下卓驭科技的技术变革。我认为特别值得单拿壹个章节详细解答。由于从中大家可以体会到,我何故会在卓驭科技的技术哲学上感受到老子的“为学日益”、“为道日损”。
技术变革往往遵循托马斯·库恩提出的“科学革命”学说:在常规科学阶段,技术按既定轨道渐进式进步;当累积的难题达到临界点时,就会发生“范式革命”,整个技术体系被从头定义。
如果能在不同技术范式取得成功,就是大家经常听到的字眼“穿梭周期”。这两年,卓驭就穿梭了一次:从代码制度切换到了模型驱动的端到端。可以说,从2024年到2024年的七年,卓驭的智驾技术走过了基于制度技术路线的完整周期。
最开始的制度路线,一个典型的复杂化经过。当时工程师们相信,通过不断添加制度,就能覆盖现实全球的全部也许性,实现汽车的智能驾驶。当然,这也不仅是卓驭壹个团队秉承的技术范式,而是业界一度的普遍选择。
“从16年底一直到23年,很明显制度是越写越多的,特别是到后面开始做基于制度的无图城市领航的时候,那时候基本上卓驭的制度代码就是登峰造极的境界了”, 沈劭劼谈到这的时候,李强马上问代码规模有多大?答案是:百万行级别,但还只是决策规划不包括感知。
然而,现实给出了代码量不一致的反馈:城市里面的接管率如何都降不下来了。
和此同时,团队内部一直在并行寻觅端到端技术。而当两条技术路线的性能对比出炉时,结局是震撼性的:七年积累的百万行制度代码,在性能上却被壹个初期阶段的端到端体系数量级超越。
面对这种巨大差距,沈劭劼做了壹个果断的决定:“用简单回答的话去拓展资料就是直接言败了”,抛弃百万行制度代码,综合转给端到端。数据不会骗人,“城区复杂场景的接管率直接降了10倍”。但数据背后,还有更深层的认知变化。
沈劭劼回忆道,最开始大家对于模型驱动还是有很多疑问的,能达到啥子安全性能力也有不确定性。但后来,随着语言大模型表现出来的智能涌现,让团队确信,模型本身也许比人工编写的制度更接近聪明的本质。
当然,切换技术体系,不代表工程师的职业不重要了,只是技术逻辑发生了根本性的转换:过去是“say yes”——告知机器应该如何做,啥子是对的;现在变成了“say no”——让机器自己判断,工程师只需要告知它啥子是不该做的。
沈劭劼解释:“从数学的角度上来说,如果是say yes,它本质上来说一个正给的去解特别复杂的非线性优化难题,要找到壹个解是很难的。say no就简单多了,只要在空间里面验证一下就好了。”
端到端:拟人化智能的突破
除了接管率的间接数字表现,这种技术切换给驾乘尝试带来的直观效果也立竿见影。沈劭劼描述了壹个生动的场景:假设车辆进入壹个住宅区,但路边停了很多车,发车往里走,往往就会出现“鬼探头”(即壹个人突然从路边车辆遮挡的盲区突然冲出来)的情况。
如果用写制度应对这种情况,就需要不断优化车辆对突发状况的响应速度,这在数学上容易计算但实现起来很难,“会很容易达到物理极点”。
但用了端到端方式之后,车辆体系的突发响应速度并没有加快,但你会发现,一旦进了这些场景,车就不肯加速了。由于此时,车辆表现出了近似人类的预判能力:不肯加速,就代表智驾体系懂得了这个场景是有危险的,需要刹车慢给“油”。
更有趣的是AEB(自动紧急制动)测试的变化:“切换到端到端之后,大家很难测AEB,由于车会绕开障碍物,而不是事到临头刹车。相比起来,人类司机发车反而还相对容易测AEB。”
这种变化的本质,是由于机器学会了人类司机的直觉,让驾驶变得拟人。沈劭劼注意到,很多时候所谓的危险接管,并非出现在完全意义上的刹车不及,而是没有和其他交通参和者、交通状况形成壹个默契。
没有这个直觉,从人类司机看来,驾驶体系就还是个机器,而不是“老司机”。而我的“为学日益”到“为道日损”的感受,也就是从这些话术中感悟而来了。
一开始,工程师们勤勉地添加制度代码,试图用百万行程序来描述汽车在复杂全球中应该怎样行驶。但当端到端技术出现时,他们发现真正的突破是减法:让机器自己学会判断,而不是被无数制度束缚。
模型有模型的难题
不过,硬币总有两面。技术路线的转换,有惊艳的效果,也有心惊的难题,最重要的就是数据处理。
这并不意外,在算力算法数据的AI三要素,“数据墙”的制约,是大众说得最多的话题。不过,从外界来看,数据难题往往会被归结为规模难题,也就是数据量够不够大的难题。
但从卓驭看来,并非如此。
沈劭劼解释,如果有几十万辆车在路上跑,每天的数据规模,光是存储和传输的费用,都会很高。更何况,绝大多数日常行驶数据所描述的状况,其实都已经被抽象、纳入模型的参数中,额外收集再多同类并没有用。
这就可以归纳出数据时代的壹个重要认知:数据的价格在于数量但也在于质量。因此,大家怎样能把更有价格的数据给挖掘出来?
最开始的行为是人工标注:就是所谓的有几许人工,就有几许智能。但随着数据量增长,卓驭开始构建更智能的数据处理体系:利用车辆本身的行为特征作为捕捉更有价格数据的信号,由于驾驶员的驾驶行为、接管行为,都可以作为启动数据传输或者启动决定因素场景的信号。换句话说,只有某些“有价格的数据”行为出现了,体系才去记录数据。他们甚至在车上部署了专门的数据挖掘模型。壹个相对小的VLM(视觉语言模型),它不负责驾驶,但专门负责去发掘啥子样的数据是更有意义的。
算力晴雨表:见证技术范式的跃迁
能从另壹个角度观察这场技术范式变革,和卓驭科技算力变迁的,就是阿里云团队了。
作为先进的AI基础设施供应商,阿里云从卓驭的AI基础设施消耗中看到了清晰的汽车产业的智能脉络。大家可以将其称之为“算力晴雨表”。
卓驭和阿里云的合作,始于2024年;具体落地场景可分为智驾模型产品和企业业务体系两个层面。
在智驾模型产品方法层面,卓驭是基于阿里云智算服务 PAI-灵骏训练“分段式的小模型”起步的。
2024年,独立运营后的卓驭,天然会对企业业务体系提出新标准。此时,企业做出了壹个决定因素决策:将内部业务体系“应上尽上”,全部迁移到云端,团队则选择专注核心能力,将其他都交给专业的服务商,决策的成果不负期待。
通过阿里云的数据湖仓平台StarRocks,卓驭实现了对千亿级视频每一帧的存储标注计算;MEMS、MOM、Lims等工厂智造、供应链等核心体系也都相继迁移上云,节约了大量研发和运维的基础人力投入。这时在阿里云的“晴雨表”上,卓驭的通用计算消耗还是大于智能算力消耗的。
随着卓驭从制度走给端到端,虽然接管率在下降,代码量在下降,但当驾驶的决策由模型得出,对基础设施的标准反而进步了。两个字:壹个“量”,壹个“质”。谈“量”,是智能算力的需求,很快超过了通用计算消耗。说“质”,则体现在端到端玩法对基础设施提出的最新标准。如果大家把过去的制度驱动描述为“单线程”职业,那么端到端训练就像是“多线程并发”。而成千上万的GPU同时协作时,任何壹个节点出难题,整个训练就也许前功尽弃。
显然,训练中断是工程师们最头疼的难题其中一个,它意味着多日的计算量付诸东流。智算服务PAI-灵骏针对这些挑战做了体系性优化。举个例子:如果某个训练节点出现故障,首先体系能自动隔离难题节点并快速恢复训练;其次,3.2Tbps的RDMA网络带宽则让海量的模型参数能够在节点间快速流转;最后,智能调度体系则像壹个精明的“资源管家”,确保每一份算力都用在刀刃上。
在推理端,情况同样复杂。车载芯片的算力限制标准在保证精度的前提下让模型跑得更快、更省资源。为此,阿里云人工智能平台PAI提供的量化工具链能够在尽也许少损失精度的情况下,大幅提高模型的推理效率,这就直接带动了车辆的响应速度和能耗表现。
虽然AI算力需求在增加,然而和算力优化一点不矛盾,反而相辅相成。我最近和阿里云不同团队探讨时,确实体会到了阿里云的一种算力价格观:一方面阿里云关注客户算力需求增长;但另外一方面,他们实际上更在意客户算力的用法。
如果某个客户能把算力用得很极点,把每一分算力都用在刀刃上,反而会让阿里云多关注,去推动让这种极点走得更远。卓驭就属于这种情况。我领会这个价格的逻辑是,能把技术用漂亮,业务也会做漂亮。能把先进技术用到极点,同样业务也会做得很成功。
说到价格观,我也问卓驭科技和阿里云双方,为何能够一拍即合紧密配合,沈劭劼和李强的回答是一致的:商务上秉持简单高效的职业理念,沟通透明;技术上坚持长期主义,追求底层逻辑。
由于回顾过往,阿里云是最早深耕智驾领域客户的云服务商,在不断的业务迭代经过中,阿里云从产品能力、框架优化能力、算子库等多技术板块针对智驾场景做了特别多的优化落地。而正是这样的高效开发效率,促成了双方的相互成就。同时,卓驭在业务高速进步经过中也带动了阿里云产品和技术的持续领先,这是真正意义上的携手共进,这就是三观一致、互相成就。
有意思的是,卓驭这个先行者的AI算力晴雨表,也是整个中国汽车产业智能化晴雨表的缩影。李强提供的一组数字佐证了这一点。在他所服务的阿里云AI汽车行业线,在现在3月份的某一天,AI算力的收入已经超过了CPU通用算力。到5月底AI算力占比已经接近56%。
软硬一体化,舱驾一体化,背后是一种技术美学
在卓驭的官方资料中,软硬“一体化”是经常出现的高频词。我天然也在对话中,希望对此作一番探究。
沈劭劼告知我,这背后体现的理念是局部优化和体系优化的不同差异。他用壹个“双目摄像头”的例子做了具体阐述。
卓驭现在全部的智能辅助驾驶方法都是用双目的,沈劭劼解释:这个选择看似简单,但其实有深层的体系性考量。双目有立体视觉,和人眼类似,这就让它天然具备物理特性,更擅长识别和躲避路面的障碍物。
更重要的是,这种选择的价格不仅在技术层面,更体现在成本控制的体系优化层面。这也许有点反直觉,如何增加了“一目”,反而成本更可控。道理在于功能互换。
智能驾驶体系有要化解“传感”、“算力”、“数据”、“算法”四座大山的说法。它们遵循木桶学说,每壹个都不能有明显的短板,但它又一个奇怪的木桶。一块木板更长,就能够让另一块木板无需太长。也就是说,由于用双目硬件能实现的性能,如果改换用算力实现,成本会特别高。
换言之,有了双目摄像头,模型的参数规模就可以缩小,成本就可以大幅度降低。显然,这里对应的,不仅是卓驭的交付成本,更是主机厂客户的车辆成本。
因此,沈劭劼算了一笔账:双目不只是装在车上的硬件的钱,它是整个体系运作起来的成本。甚至事关到底一年需要用5个亿来做模型训练,还是需要用50个亿来做模型训练。
这也体现了卓驭对"软硬一体"的深层领会:前后端的物品是会互相影响的,它们是需要一起权衡、一起优化的物品,也就是“一体化”。而这种技术理念,也体现在智能舱驾方法中。卓驭原来只做驾驶体系,但现在也将座舱体系纳入业务范围,方法是“驾舱一体化”。项目正在有序进行中,预估10月份就会量产。
所谓舱驾一体,顾名思义,就是将座舱和智驾功能集成在壹个平台上。我天然要问沈劭劼,卓驭何故这么在意“一体化”设计?
他给了我壹个“意料之外、情理之中”的答案:“某种程度上这是一种技术美学”, “全部漂亮的工程方法,它的软件硬件算力各种资源,摆放分布,应该让人看到就觉得是刚刚好的,不多也不少。而要做到这种刚刚好,只有靠一体化设计才能做到(听到这句话的时候,我突然想到了乔布斯时期的苹果)。
这种技术美学,天然也能产生经济效益。沈劭劼说,“大家的座舱里会跑VLM模型做场景识别”,但如果舱驾分离,就需要在两个位置部署类似功能,消耗1.7倍的算力,如果合起来设计,就会“不多也不少”、“算力刚刚好”。就VLM本身的能力,目前阿里通义系列大模型坚决开源路线,持续为各行业客户提供开源VL大模型的能力,Qwen VL系列和全模态大模型目前也是各个车企和座舱方法供应商的首要选择。
更直观的体现是360全景功能的实现。在传统架构中,环视相机接到驾驶控制器,处理完成后再通过车载以太网传输到座舱显示,这种设计既消耗算力,又影响尝试——如果驾驶控制器没启动完,用户就会看到黑屏。
但用一体化设计就简单了。“共享内存而已,谁想用谁用”。这种“刚刚好”的一体化技术理念,其实也是一种“为道日损”的工程哲学——不是功能的简单堆叠做加法,而是资源的优雅整合做减法。
端到端、VLA、全球模型
在我和李强、沈劭劼的播客访谈中,我也没放过机会,和他们谈到了很多未来性议题。
端到端技术显然并非是智驾的终局,新的范式还在不断涌现,比如:VLA、(生成式)全球模型等等,只有端到端,智驾体系对复杂的场景的领会能力会不足,沈劭劼告知我他的思索,例如车辆左转之后,到底进主路还是辅路?路口有好多个车道,有三条车道,到底挑哪条?这些决策很明显不是用“小脑体系”能化解的,都需要用“大脑体系”介入。
由于端到端更像是人类的小脑反应,而复杂的路线选择需要大脑思索。这种认知推动着技术给更高层次进化,也促使卓驭深挖VLA(Vision-Language-Action)。这里大家稍微解释一下VLA。VLA模型是基础模型的一种,它允许机器通过整合视觉环境信息和语言指令来执行复杂任务并生成相应行动。这些模型致力于在单一计算框架内统一感知、天然语言领会和具身行动能力。
具体而言,VLA 智能体系能够协同处理视觉输入,领会天然语言指令,并在动态环境中生成可执行的动作。这标志着壹个重要的转变——从过去将视觉、语言和行动视为分离的领域,到如今将它们整合为壹个有机的整体。
有了VLA建立语义级别的场景领会能力,就能相对轻松化解主辅路选道的策略难题了。对VLA技术的落地时刻,沈劭劼相对乐观:如果相对快的话,应该现在下半年就会出来。而更大的想象空间则在于全球模型。
所谓全球模型,是指机器能够根据给定全球的当前情形和壹个动作,预测全球在下壹个时刻的情形。换句话说,它让AI智能体能够在采取实际行动之前,在自己的“脑海”中进行“想象”和“推演”,预见不同行为也许带来的后果。
沈劭劼用壹个例子来说明全球模型的能力:假如前面的车掉了个钢卷,而车辆的模型训练数据里面没见过这物品,显然就很危险。但有了全球模型,体系就可以基于物理运动做解析,了解这物品完全不能碰。
这就是全球模型和当前技术的本质不同差异:不是基于既有数据的模仿进修,而是基于对物理全球的理推演决。但对这个未来路线,沈劭劼也很坦诚:“实话实说,如何真正做出来,大家现在还不清楚。目前,这一个许愿”。
从端到端,到VLA,再到全球模型,这个技术演进轨迹很清楚,就是返璞归真。因此,我想其实也恰如老子的哲思:每一次架构变化,都是“为道日损”的简化,都为下一轮寻觅奠定了基础。
不过,虽然全球模型还是许愿阶段,L3级别的智能驾驶并不是。
对于L3的时刻表,沈劭劼表示“ L3的最终落地会一个后验的事务。和其一开始就追求最佳的L3体系,不如先让L2++体系在实际道路上积累足够的安全数据。比如:啥子时候车辆在1万个小时的智驾运行中,事故不大于一次的时候,就可以天然而然地被认定为是L3标准的体系。”
在绝大多数时刻,我和两位专家谈的是技术,但到后来,话题天然而然地转移到企业使命上。
卓驭的企业愿景是“为全部人提供安全轻松的出行尝试”,听起来很朴实,但沈劭劼解释:“这其实一个科技平权的宣誓,‘安全’这个准绳时时刻刻提醒大家做的一个跟人命相关的物品,不能开玩笑。而‘轻松’,则是大家所追求的产品尝试。”
每次遇到创业者,我都问时刻分配的难题,沈劭劼用了壹个通信术语描述自己:我现在是TDMA体系(TDMA一个通信领域的技术名词,中文叫时分多址,可以实现在同一信道上运用不同的时刻段,允许多个用户进行通信。沈老师的“TDMA”比喻天然意味着他要利用全部的时刻间隙,应对来自四面八方的任务)。首先,他要确保企业产品技术路线上不走歪,技术素质肯定不能“丢”,其次,“要保证团队在客户交付上有高配合度”。
总之,不在技术和管理之间非此即彼的选择,而是通过时刻分配实现整体优化,似乎这也是一种“一体化”哲学啊!
最后收尾时,我问沈劭劼,作为AI从业者,你选啥子车?他说自从进了智能驾驶这个行业之后,发车就变成了一种职业。第一:车一定是用了自己方法的车,每天开的车都不一样;第二:一边开一边给工程师提Bug。正可谓上车即上班。
李强也讲,“我选车,一是要主流的、智能化的产品;二是如果实力允许,每家客户的车都应该来一台”。
老子《道德经》第一章还有一句很出名的话,“道可道,特别道”,如果道是可以言说的,那么它就不是永恒不变的道。这句话也适合讲智能驾驶,如果驾驶制度是可以一条条讲出来的制度,那就不是智能驾驶的真谛。
沈劭劼说全球模型还在许愿,然而我感觉这是一种虚心。由于,他们可不是只在许愿等待,而是亲自上手实干。不过,就让大家用这个词表达一下期许吧,期待“全球模型”许愿成功的那一天。(来源:至顶科技)