理想加入“端到端”竞赛,虽只是PPT

虎嗅网 整合编辑:太平洋科技 发布于:2024-07-08 17:27

“端到端”的风正在席卷中国智驾行业。

进入 2024 年下半年,如果有车企谈智能驾驶时不谈“端到端”,那大概率会被视为落后了。

7月5日,理想汽车发布了基于端到端模型、VLM 视觉语言模型和世界模型的全新自动驾驶技术架构。这基本是理想汽车端到端路径的一次方法论输出,较为完整地呈现出理想智驾下一步发展路径。

在虎嗅汽车看来,此次发布有三大值得关注的焦点——理想的“端到端”和其它玩家的有何不同?理想的智驾研发到了什么程度?以及,理想为何在此时强调智驾技术能力?

相较华为,理想方案更为激进

先看理想全新的自动驾驶技术架构。其受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发,在自动驾驶领域模拟人类的思考和决策过程,采用了“快系统”和“慢系统”进行协同。

快系统,即系统 1,善于处理简单任务,是人类基于经验和习惯形成的直觉,足以应对驾驶车辆时 95% 的常规场景。

慢系统,即系统 2,是人类通过更深入的理解与学习,形成的逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约 5%。

在这一架构原型下,系统 1 由端到端模型实现,通过接收传感器输入,并直接输出行驶轨迹用于控制车辆。系统 2 由 VLM 视觉语言模型实现,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统 1。双系统构成的自动驾驶能力将在云端利用世界模型进行训练和验证。

据理想的说法,其系统 1 的端到端模型采用的是 One Model 方案,主要由摄像头和激光雷达构成,多传感器特征经过 CNN 主干网络的提取、融合,投影至 BEV 空间。

另外理想在输入端还加入了车辆状态信息和导航信息,经过 Transformer 模型的编码,与 BEV 特征共同解码出动态障碍物、道路结构和通用障碍物,并规划出行车轨迹。

相较于华为、小鹏等厂商采用的是分段式端到端方案,理想采用的 One Model 方案更为激进。特斯拉同样是 One Model 方案,但其“输入图像、输出控制”的方案比理想的“输入传感器信息、输出行驶轨迹”更进一步。

需要指出的是,目前各家厂商在端到端上采用不同的路径只是选择上的差异,并无优劣之分。

理想这套架构的特别之处其实是系统 2,其基于的 VLM 视觉语言模型的算法架构由一个统一的 Transformer 模型组成,将 Prompt(提示词)文本进行 Tokenizer(分词器)编码,并将前视相机的图像和导航地图信息进行视觉信息编码,再通过图文对齐模块进行模态对齐,最终统一进行自回归推理,输出对环境的理解、驾驶决策和驾驶轨迹,传递给系统 1 辅助控制车辆。

在实际场景中,如果系统二发现行驶过程中地面路面非常坑洼不平时候,其会给系统 1 发一个降速的提醒,并告知驾驶员前方的坑洼路车辆将慢速行驶,减少颠簸;又或者是能够识别公交车道的位置以及辨别潮汐车道等。

用理想的话说,系统 2 相当于副驾坐了个驾校的教练时刻监督驾驶行为。值得一提的是,小鹏的大语言模型 XBrain、毫末的自动驾驶语义感知大模型也有类似能力。

据悉,理想的 VLM 模型参数量达到 22 亿,VLM 模型在车端的推理时间也从 4.1 秒优化至 0.3秒。

双系统之外,理想还介绍了端到端方案的测试和验证方法。业内主流的做法是通过 3D 虚拟环境、重建式仿真、生成式仿真等进行仿真测试。理想的做法则是结合了重建仿真和生成仿真两种技术路径,相当于做了重建的真题和生成的模拟题。

事实上,特斯拉也利用了大模型生成连续视频,打造 World Model 即世界模型;自动驾驶公司 Wayve 的自动驾驶大模型 GAIA-1(已拥有 90 亿个参数)也同样可以生成驾驶场景视频,描述场景以及做出预测。

总的来看,理想的技术架构是在车端布局双系统,ONE Model 的端到端模型让其自动驾驶系统拥有了像人类老司机的行为能力;VLM 模型能够让自动驾驶系统拥有像人类一样的逻辑思考能力;而世界模型则是提供了学习和考试的环境,拥有快速迭代的能力。

据理想智能驾驶负责人郎咸朋透露,其端到端方案从去年下半年就在内部孵化并启动预研,目前已经完成了模型的原型验证和实车的部署。

不过,这一方案还难以交付给用户,理想在本月给 AD Max 用户的,是推送无图 NOA 方案。

智能驾驶迎来超车时刻

“端到端”正在成为各家厂商智能驾驶追逐战的重要方向。

今年 3 月,元戎启行能够将端到端模型成功上车;华为在 4 月发布乾崑 3.0 时就表示技术转向 GOD/PDP 网络全新架构,实现预决策规划一张网;小鹏 5 月在 AI DAY 上宣布端到端大模型已经量产上车。另外,包括蔚来、小米、小鹏等厂商都对智驾团队进行了调整以开展端到端的布局。

可以看到,包括特斯拉在内的各家厂商在端到端技术方向上目前都处在探索当中,尽管在方案、路径上的选择各有不同,但可以肯定的是,端到端已经成为智驾前进的方向。

不过,端到端会放大智驾系统的上限与下限,其能够带来智驾能力提升的同时,也带来的难以解决的安全问题,端到端是一个神经网络黑箱,其不可解释性带来了一部分安全隐患。

在各家争相布局之际,理想是首个公开端到端技术方案的车企,李想本人上个月在重庆论坛就公开了两大系统的做法引起了业内热议,此次更是将全套技术架构方案公示,可谓是趁热打铁。

考虑到理想在下半年不会有新品发布,其率先在智驾能力上的输出既能让企业保持热度,或也有维持其现有产品竞争力的考量。另外,端到端技术路径的布局也给了理想在智驾能力上追赶的机会。

相较于华为、小鹏等采用分段式端到端做法,理想的端到端模型实现难度更大,其从PPT到走向量产落地要耗时多久,效果如何,还需要保持观察。

根据辰韬资本发布的《端到端自动驾驶行业研究报告》,国内自动驾驶公司的模块化端到端方案上车量产时间可能会在 2025年。是骡子是马,明年就到了拉出来遛遛的时候了。

本文来源:虎嗅

网友评论

聚超值•精选

最新内容

去年车企们立下的flag,没几个能完成的。。。

去年,比亚迪、小米、理想等新能源车企完成了年初定下的销量目标。比亚迪以低价策略赢得市场,销量同比增长41.1%,达到4272145台;小米汽车和理想分别交付了SU7和L6,并取得不错成绩。然而,问界未能实现预期目标,只卖出38.63万辆。其他品牌如零跑、蔚来等也有所进展。

比亚迪 | 零跑
路特斯改名,背后在下一盘什么棋?

路特斯改名为莲花跑车,标志着中国豪华车市场迈向新阶段。作为传统豪车品牌,莲花率先实现电动化和智能化转型,并推出多款创新产品。其首款纯电超跑Evija、电动超跑SUV Eletre以及即将上市的EMEYA繁花等产品展示了莲花在技术创新方面的领先地位。此次更名旨在传承品牌精神和历史底蕴,并进一步拓展全球市场份额。

莲花跑车 | 品牌传承
领克再次冲击豪华,这次的“杭州湾揽胜”怎么样?

领克900豪华SUV正式亮相,成为领克最高端车型。发布会上,郭富城作为签约车手表白了这款车,并展示了其赛车实力。然而,该车的火爆并非因为优秀性能,而是因媒体泄密事件引发的关注。尽管陈震及时道歉,但已无法挽回局势。外观方面,“杭州湾揽胜”设计独特;内饰配置一般;空间较大且安全性能出色;动力方面暂未公布详细信息。

领克 900 | 杭州湾揽胜
哪吒官网,又行了

哪吒汽车官网今天恢复正常,经过一段时间的维护后,现在可以正常访问。此前由于官网打不开引发了热议,但相关人士表示问题已解决。尽管如此,仍有用户反映400服务电话无法接通,并且部分车机系统也出现授权到期的问题。这次官网故障给哪吒汽车带来了一些困扰,而公司内部近期也遇到了一系列问题。

哪吒汽车 | 官网恢复正常
零跑,向车主扎出「新年第一刺」

零跑汽车宣布2025年开年最高降价1.5万元,引发车主不满。同时,零跑在OTA升级中对待老用户与新用户存在明显区别,老款车型功能更新滞后。虽然销量持续增长但仍未摆脱亏损。

零跑汽车 | OTA升级
二维码 回到顶部