略喷网 > 百态 > 正文

​大模型上车,特斯拉带了个好头吗?

2023-10-13 01:22 来源:略喷网 点击:

大模型上车,特斯拉带了个好头吗?

1989 年,卡内基梅隆大学接到了美国军方的一个研究课题,内容是当时看起来不可思议的自动驾驶。

为此,研究人员给一辆翻新的军用急救车,装上了一个看起来像探照灯的硕大摄像头,还配备了一台冰箱大小的处理器和一部 5000W 的发电机。

尽管设备简陋、数据粗糙,比如据媒体报道当时车顶的摄像头只能输入 30×32 像素网格,但借助开创性的神经网络,这辆名为 ALVINN 的自动驾驶汽车最高速度能达到 88km/h。

ALVINN 被誉为自动驾驶领域一个里程碑项目。其最深刻的影响,正是用神经网络替代人工代码,成为后来自动驾驶技术发展的一座灯塔。

此后数十年,自动驾驶技术沿着 ALVINN 的方向飞速发展,直到 chatGPT 问世,大模型走上舞台,成为改变自动驾驶最大的一个变量。

在车端,大模型已经作用于自动驾驶的感知和预测环节,正在向决策层渗透;在云端,大模型为 L3 及以上自动驾驶落地铺平了道路;甚至,大模型还将加速城市 NOA 落地。

而全球的下游企业中,特斯拉毫无疑问是跑在最前面的少数。

今年 8 月特斯拉端到端 AI 自动驾驶系统 FSD Beta V12 版本的公开亮相,据称可以完全依靠车载摄像头和神经网络,识别道路和交通情况并做出相应的决策。

这种端到端模型的感知决策一体化,让自动驾驶直接从一端输入图像数据,一端输出操作控制,更接近人类的真实驾驶。

但车企们努力接近端到端模型时才发现,想要超越必须先跟随。

算法优先

让大模型上车,特斯拉绝对是最激进的一个。

早在 2015 年,特斯拉就开始布局自动驾驶软硬件自研,2016-2019 年陆续实现了算法和芯片自研。随后在 2020 年,特斯拉自动驾驶又迎来大规模升级:

不仅用 FSD Beta 替换了 Mobileye 的 Autopilot 3.0,还将算法由原来的 2D+CNN 升级为 BEV+Transform。

Transformer 就是 GPT 中的 T,是一种深度学习神经网络,优势是可实现全局理解的特征提取,增强模型稳定性和泛化能力。

BEV 全称是 Bird ’ s Eye View ( 鸟瞰视角),是一种将三维环境信息投影到二维平面的方法,以俯视视角展示环境当中的物体和地形。

与传统小模型相比,BEV+Transformer 对智能驾驶的感知和泛化能力进行了提升,有助于缓解智能驾驶的长尾问题:

1)感知能力:BEV 统一视角,将激光雷达、雷达和相机等多模态数据融合至同一平面上,可以提供全局视角并消除数据之间的遮挡和重叠问题,提高物体检测和跟踪的精度 ;

2)泛化能力:Transformer 模型通过自注意力机制,可实现全局理解的特征提取,有利于寻找事物本身的内在关系,使智能驾驶学会总结归纳而不是机械式学习。

2022 年特斯拉又在算法中引入时序网络,并将 BEV 升级为占用网络 ( OccupancyNetwork ) ,有效解决了从三维到二维过程中的信息损失问题。

从感知算法的推进来看,行业总体 2022 年及之前的的商业化应用主要为 2D+CNN 算法。随着 ChatGPT 等 AI 大模型的兴起,算法已经升级至 BEV+Transformer。

时间上特斯拉有领先优势(2020 年),国内小鹏、华为、理想等均是今年才切换至 BEV+Transformer。

但不论是特斯拉还是国内主机厂,BEV+Transformer 都仍只应用于感知端。

虽然学术界以最终规划为目标,提出感知决策一体化的智能驾驶通用大模型 UniAD+ 全栈 Transformer 模型,不过受限于算法复杂性 + 大算力要求,目标落地尚无准确时间表。

算力竞赛

2016 年,因辅助驾驶致死事故和 Mobileye 分道扬镳的特斯拉,找到英伟达定制了算力为 24TOPS 的计算平台 Drive PX2,由此开启了车企疯狂追求算力的神奇序幕。

继 Drive PX2 之后,英伟达在 6 年时间内发布了三代智能驾驶芯片,从 Xavier、Orin 再到 Thor,算力从 30TOPS 一跃升到 2000TOPS,足足增长了 83 倍,比摩尔定律还要快。

上游如此 " 丧心病狂 " 的堆算力,归根结底还是因为下游有人买单。

一方面,随着智能汽车上的传感器规格和数量提升,带来数据层面的暴涨。

以特斯拉 Model Y 和小鹏 G6 Max 为例,后者因配置了更多传感器,所需算力达到了前者的 3.5 倍。

当一辆自动驾驶车辆每天可以产生数 TB,甚至数十 TB 数据,数据处理能力即为自动驾驶技术验证的关键点之一。

另一方面," 大模型化 " 也让智能驾驶算法的芯片算力愈发吃紧。

上汽人工智能实验室曾测试,实现 L2 级自动驾驶只需 10Tops 以下的算力,即便是实现 L4 级自动驾驶也只需 100Tops 左右的算力。而下游企业暴涨的算力需求,实际也另有原因。

一个是云端算力。

自动驾驶系统前期和后期开发依赖大量环境数据输入,对算法进行训练与验证,同时仿真测试中场景搭建与渲染也需要高算力支持。

而且特斯拉引领的神经网络 Transformer 又是一个资源消耗大户,毫末智行数据显示,Transformer 在训练端所需算力是 CNN 的 100 倍。

如此一来,下游企业想要获得算力要么自建智算中心(特斯拉),要么与云服务商合作,最不济的全部外采,包括算法、计算资源、应用服务等。

国内主流主机厂 / 自动驾驶厂商的智算中心虽然都已上线,但因自建成本较高,国内主流自动驾驶厂商大多采取合作模式 / 采购模式,比如吉利星睿、小鹏扶摇都是阿里云,毫末和理想则是火山引擎。但从长期成本优势来看,仍具备较高的自建倾向。

还有一个则是 NOA。

现实中主机厂具备城市 NOA 高阶智能驾驶功能的车型,算力大多在 200-500TOPS 左右。

但 NOA 从高速道路向城市道路拓展(高速道路 - 城市快速路 - 城市主干道 - 城市次干道 - 城市支路)的过程中,人流越密集(每天仅 25% 的人出行途径高速,而城市道路则是 100%)的道路环境复杂度更高,物体识别、感知融合和系统决策的算力需求就越高。

沐曦首席产品官孙国梁就指出,在车端部署大模型并能实现既定任务,算力至少要达到 300~500TOPS。模型优化或可降低算力要求,但考虑到未来场景复杂度和数据量增加,以及视觉感知占比增加(相对基于规则),车端算力或将翻倍达 800TOPS 以上。

感知升级

光大证券有一个判断,认为 L2/L2+ 级向 L3 级高阶智能驾驶迈进的三大要素重要性排序分别是数据 > 算法 > 硬件,而后阶段向更高阶智能驾驶迈进的排序或为硬件 >= 算法 > 数据。

理论依据在于,实现 L3 级智能驾驶的关键在于全面感知,主要依赖海量 + 长尾场景数据驱动算法升级优化;其中,无图场景覆盖还需低线城市数据(vs. 当前车载算力已基本满足 L3-L4 级需求)。

而当前阶段,海量 + 长尾场景数据的获取就要依靠车载传感器(摄像头)的大幅升级。

根据 Yole 报告,自动驾驶 L1-L3 所需的摄像头数量翻倍增长,比如 L1-L2 级仅需前后两颗摄像头,到 L3 就要 20 颗。

而实际上,主机厂为后续 OTA 升级预留冗余,单车摄像头配置远超本级所需的摄像头数量,如特斯拉 Model 3 搭载 9 颗,蔚来、小鹏、理想车型达到 10-13 颗。

此外,因大模型对感知数据的精细化要求,高分辨率图像数据可以作为深度学习模型中更新和优化其架构的参数的数据源,尤其是前视摄像头,需要解决的场景最多,目标识别任务最复杂,比如远距离小目标识别、近距离目标切入识别。

为了对更远距离的目标进行识别和监测,车载摄像头就要向 800 万像素或更高升级。典型如百度 Apollo,就已联合索尼、联创与黑芝麻智能,全球首创了超 1500 万高像素车载摄像头模组。

而在提高感知能力这件事上,还有两个所有车企都想绕开的坎,高精地图和激光雷达。

高精度地图作为先验信息,可以给自动驾驶提供大量的安全冗余,在数据和算法尚未成熟之前,主机厂依赖程度较高。而脱图的原因也比较好理解:

1)高精地图存在更新周期长、成本高、图商资格收紧等弊端,限制了高阶自动驾驶大规模商业化的可能性。

2)构建数据闭环,形成对算法模型的迭代升级反哺车端。

至于如何脱图,特斯拉的办法是引入车道线网络及新的数据标注方法,国内自动驾驶头部公司则采取车端实时建图方案,通过安装在车辆上的相机等传感器来构建车辆行驶过程中周围的环境地图。

目前小鹏、华为等头部主机厂发布无高精地图的高阶智能驾驶方案,并定下量产时间表,华为、毫末、元戎启行等自动驾驶公司也加入其中,自动驾驶算法 " 重感知,轻地图 " 趋势明确。

激光雷达则是因为成本问题。

激光雷达在距离和空间信息方面具有精度优势,搭载激光雷达的多传感器融合感知方案可通过互补达到全环境感知能力,为高级别自动驾驶提供安全冗余。

但激光雷达也的确是成本大户,早些年除了特斯拉,几乎所有成熟的无人驾驶技术方案都采用了 64 位激光雷达,它的成本约人民币 70 万元,一个小雷达抵得上一辆车甚至几辆车。

特斯拉利用占用网络来实现类似激光雷达的感知效果,国内主机厂由于机器视觉算法的缺失,预计仍将激光雷达作为重要的补充传感器,由此可减少在视觉领域所需积累的数据量。

另外 4D 成像毫米波雷达或将完全替代 3D 毫米波雷达,有望对低线激光雷达形成替代。

与激光雷达相比,4D 成像毫米波雷达部分指标近似达到 16 线激光雷达性能,但成本仅为激光雷达十分之一。

特斯拉基于全新的自动驾驶硬件 HW4.0,首次在 S/X 的车型上搭载了 4D 毫米波雷达。除特斯拉外,价格在 40 万元以下的理想车型和价格在 70 万以上的宝马车型、以及通用收购的 Cruise 自动驾驶服务车均于近两年完成了 4D 毫米波雷达布局。同时大陆、采埃孚等汽车 Tier-1 巨头基本完成对该领域的布局。

尾声

8 月,马斯克亲自上线开启了一场 FSD Beta V12 的试驾直播,45 分钟内 FSD Beta V12 系统在行驶全程进展非常顺利,能够轻松绕过障碍物,识别道路各种标志。

马斯克激动地表示:

V12 系统从头到尾都是通过 AI 实现。我们没有编程,没有程序员写一行代码来识别道路、行人等,全部交给了神经网络。

而这一切是建立在巨量的「视频数据」和 1 万个 H100 之上。

遗憾的是,这两个战略性资源都不是国内主机厂能够轻易追赶上的。

参考资料:

[ 1 ] 你知道么,自动驾驶竟然已存在 27 年?佚名 [ 2 ] 智能驾驶芯片算力越大就越好吗,远川汽车评论 [ 3 ] 大模型应用下自动驾驶赛道将有哪些变化?天风证券 [ 4 ] AI 大模型应用于汽车智能驾驶梳理:吐故纳新,如日方升,光大证券 [ 5 ] ALVINN 探秘:一辆来自 1989 年的自动驾驶汽车,雷锋网 [ 6 ] 爆火的 ChatGPT,能让自动驾驶更快实现吗?钛媒体 [ 7 ] 马斯克直播试驾特斯拉 FSD V12!端到端 AI 自动驾驶,1 万块 H100 训练,新智元