理想加入“端到端”竞赛,虽只是PPT

虎嗅网 整合编辑:太平洋科技 发布于:2024-07-08 17:27

“端到端”的风正在席卷中国智驾行业。

进入 2024 年下半年,如果有车企谈智能驾驶时不谈“端到端”,那大概率会被视为落后了。

7月5日,理想汽车发布了基于端到端模型、VLM 视觉语言模型和世界模型的全新自动驾驶技术架构。这基本是理想汽车端到端路径的一次方法论输出,较为完整地呈现出理想智驾下一步发展路径。

在虎嗅汽车看来,此次发布有三大值得关注的焦点——理想的“端到端”和其它玩家的有何不同?理想的智驾研发到了什么程度?以及,理想为何在此时强调智驾技术能力?

相较华为,理想方案更为激进

先看理想全新的自动驾驶技术架构。其受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发,在自动驾驶领域模拟人类的思考和决策过程,采用了“快系统”和“慢系统”进行协同。

快系统,即系统 1,善于处理简单任务,是人类基于经验和习惯形成的直觉,足以应对驾驶车辆时 95% 的常规场景。

慢系统,即系统 2,是人类通过更深入的理解与学习,形成的逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约 5%。

在这一架构原型下,系统 1 由端到端模型实现,通过接收传感器输入,并直接输出行驶轨迹用于控制车辆。系统 2 由 VLM 视觉语言模型实现,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统 1。双系统构成的自动驾驶能力将在云端利用世界模型进行训练和验证。

据理想的说法,其系统 1 的端到端模型采用的是 One Model 方案,主要由摄像头和激光雷达构成,多传感器特征经过 CNN 主干网络的提取、融合,投影至 BEV 空间。

另外理想在输入端还加入了车辆状态信息和导航信息,经过 Transformer 模型的编码,与 BEV 特征共同解码出动态障碍物、道路结构和通用障碍物,并规划出行车轨迹。

相较于华为、小鹏等厂商采用的是分段式端到端方案,理想采用的 One Model 方案更为激进。特斯拉同样是 One Model 方案,但其“输入图像、输出控制”的方案比理想的“输入传感器信息、输出行驶轨迹”更进一步。

需要指出的是,目前各家厂商在端到端上采用不同的路径只是选择上的差异,并无优劣之分。

理想这套架构的特别之处其实是系统 2,其基于的 VLM 视觉语言模型的算法架构由一个统一的 Transformer 模型组成,将 Prompt(提示词)文本进行 Tokenizer(分词器)编码,并将前视相机的图像和导航地图信息进行视觉信息编码,再通过图文对齐模块进行模态对齐,最终统一进行自回归推理,输出对环境的理解、驾驶决策和驾驶轨迹,传递给系统 1 辅助控制车辆。

在实际场景中,如果系统二发现行驶过程中地面路面非常坑洼不平时候,其会给系统 1 发一个降速的提醒,并告知驾驶员前方的坑洼路车辆将慢速行驶,减少颠簸;又或者是能够识别公交车道的位置以及辨别潮汐车道等。

用理想的话说,系统 2 相当于副驾坐了个驾校的教练时刻监督驾驶行为。值得一提的是,小鹏的大语言模型 XBrain、毫末的自动驾驶语义感知大模型也有类似能力。

据悉,理想的 VLM 模型参数量达到 22 亿,VLM 模型在车端的推理时间也从 4.1 秒优化至 0.3秒。

双系统之外,理想还介绍了端到端方案的测试和验证方法。业内主流的做法是通过 3D 虚拟环境、重建式仿真、生成式仿真等进行仿真测试。理想的做法则是结合了重建仿真和生成仿真两种技术路径,相当于做了重建的真题和生成的模拟题。

事实上,特斯拉也利用了大模型生成连续视频,打造 World Model 即世界模型;自动驾驶公司 Wayve 的自动驾驶大模型 GAIA-1(已拥有 90 亿个参数)也同样可以生成驾驶场景视频,描述场景以及做出预测。

总的来看,理想的技术架构是在车端布局双系统,ONE Model 的端到端模型让其自动驾驶系统拥有了像人类老司机的行为能力;VLM 模型能够让自动驾驶系统拥有像人类一样的逻辑思考能力;而世界模型则是提供了学习和考试的环境,拥有快速迭代的能力。

据理想智能驾驶负责人郎咸朋透露,其端到端方案从去年下半年就在内部孵化并启动预研,目前已经完成了模型的原型验证和实车的部署。

不过,这一方案还难以交付给用户,理想在本月给 AD Max 用户的,是推送无图 NOA 方案。

智能驾驶迎来超车时刻

“端到端”正在成为各家厂商智能驾驶追逐战的重要方向。

今年 3 月,元戎启行能够将端到端模型成功上车;华为在 4 月发布乾崑 3.0 时就表示技术转向 GOD/PDP 网络全新架构,实现预决策规划一张网;小鹏 5 月在 AI DAY 上宣布端到端大模型已经量产上车。另外,包括蔚来、小米、小鹏等厂商都对智驾团队进行了调整以开展端到端的布局。

可以看到,包括特斯拉在内的各家厂商在端到端技术方向上目前都处在探索当中,尽管在方案、路径上的选择各有不同,但可以肯定的是,端到端已经成为智驾前进的方向。

不过,端到端会放大智驾系统的上限与下限,其能够带来智驾能力提升的同时,也带来的难以解决的安全问题,端到端是一个神经网络黑箱,其不可解释性带来了一部分安全隐患。

在各家争相布局之际,理想是首个公开端到端技术方案的车企,李想本人上个月在重庆论坛就公开了两大系统的做法引起了业内热议,此次更是将全套技术架构方案公示,可谓是趁热打铁。

考虑到理想在下半年不会有新品发布,其率先在智驾能力上的输出既能让企业保持热度,或也有维持其现有产品竞争力的考量。另外,端到端技术路径的布局也给了理想在智驾能力上追赶的机会。

相较于华为、小鹏等采用分段式端到端做法,理想的端到端模型实现难度更大,其从PPT到走向量产落地要耗时多久,效果如何,还需要保持观察。

根据辰韬资本发布的《端到端自动驾驶行业研究报告》,国内自动驾驶公司的模块化端到端方案上车量产时间可能会在 2025年。是骡子是马,明年就到了拉出来遛遛的时候了。

本文来源:虎嗅

网友评论

聚超值•精选

最新内容

欧盟对中国车企加征关税,中国车企这个“海”怎么出?

欧盟对中国车企加征关税,中国电动汽车面临挑战。欧盟委员会称中国纯电动汽车受到不公平补贴影响,对进口纯电动汽车征收临时反补贴税。上汽集团的加税率为37.6%,吉利和比亚迪分别为19.9%和17.4%。加征关税是地方保护的结果,旨在止损贸易逆差并推动本土产业转型。

关税 |中国车企
销量第一被华为夺去,理想的智驾能反超吗?

理想汽车与华为鸿蒙智行成竞争激烈的一对一角逐。上半年销量,华为超过了理想,但在6月份理想以47774辆超越华为。两家品牌都押注智驾领域,7月5日,理想发布了最新智驾路线图。然而,裁员和投入不足是理想面临的风险。

理想汽车 | 华为鸿蒙智行
18年赋能,李书福看中了LEVC什么

吉利旗下品牌LEVC推出首款MPV车型L380,售价37.99-47.99万元。该车基于新战略打造,以空间“多变”为核心竞争力,并配备了提升操控、豪华和互联等方面的多项配置。翼真L380提供6座、8座版本,未来还将推出更多场景化定制车型。

LEVC | 翼真汽车
本田大法,“空大”了

本田在中国市场销量大幅下滑,6月份同比跌39.04%,1-6月累计下降21.5%。主要原因是燃油车市场收缩和电动化转型缓慢。曾经的爆款车型如CR-V、雅阁等也不再火爆,价格体系全面崩盘。此外,新能源车市场竞争激烈,本田纯电车和插混车销量低迷。

本田大法 |销量下滑
问界这个大LOGO,不属于华为了

华为25亿转让问界商标给赛力斯,强调继续支持赛力斯造好问界、卖好车。这是华为第一次将商标转让给合作伙伴,价值102亿的资产用25亿就买走了。转让后,华为与问界切割可能有多重原因:保护其他合作品牌利益、清晰边界以及规避海外市场风险等。此举对于赛力斯来说是双赢局面,加强了品牌印象并踏入头部阵营。同时也引发热议和关注。

华为 | 问界
二维码 回到顶部