Doe-1: Closed-Loop Autonomous Driving with Large World Model

Doe-1: 大世界模型下的闭环自主驾驶 arxiv link 引言 自动驾驶技术发展迅速,已从基于规则的系统演进到复杂的人工智能模型。该领域的一个主要挑战是创建能够有效感知环境、预测未来状态并规划适当行动的系统,同时保持这些组件之间的持续反馈循环。清华大学的研究人员开发的 Doe-1 框架是解决这个问题的突破性方法。 如上图所示,Doe-1 提出了一种新颖的闭环自动驾驶框架,它将感知、预测和规划整合到一个大型世界模型中。与传统的将这些任务作为独立模块处理的方法不同,Doe-1 将它们整合成一个协同的系统,以连续的循环处理信息,使车辆能够动态响应其环境的变化。 自动驾驶系统的发展演化 自动驾驶系统传统上采用模块化架构,包括感知(理解环境)、预测(预判下一步会发生什么)和规划(决定采取何种行动)等独立组件。这种方法虽然直观,但也存在一些局限性: 模块之间的信息丢失可能会累积,从而降低整体性能 受限的可扩展性,因为每个模块需要单独的设计和优化 组件之间的弱交互妨碍了对复杂场景的整体推理 如上图所示,自动驾驶模型已经经历了几个世代的发展: 模块化端到端模型(图 a)将感知、预测和规划分开,但同时进行训练 直接端到端模型(图 b)直接将观察映射到动作 LLM/基于 VLM 的模型(图 c)利用语言模型解释场景并决定动作 驱动世界模型(图 d, Doe-1)创建了一个闭环系统,其中所有组件持续相互作用 最近的方法已经开始整合大型语言模型(LLMs)和视觉语言模型(VLMs),以提升场景理解和决策能力。然而,这些模型通常以开环方式运行,意味着它们没有考虑车辆行动如何影响未来对环境的感知。 理解 Doe-1 框架 Doe-1 背后的关键洞察是将自动驾驶视为一个闭环系统,其中感知、预测和规划紧密相连: 如图所示,自动驾驶主要有三种方法: 端到端自动驾驶(图 a):将观察转化为描述,然后转化为行动 自动驾驶世界模型(图 b):根据行动预测未来观测 闭环自动驾驶(图 c):结合了两种方法,形成了一个完整的循环 Doe-1 实现了闭环方法(图 c),这种方法有多个优势: 完整的反馈循环:行动影响未来的观察 统一表示:所有组件共享同一底层模型 时间一致性:系统在时间步之间保持连贯性 这种方法使得 Doe-1 能够处理需要理解行动长期影响的复杂情景。 The Closed-Loop World Model Doe-1 的核心是一个基于自回归变压器架构的大型驾驶世界模型。这个模型将自动驾驶视为一个下一个标记的预测问题,系统学习生成序列中多模态标记的适当下一个元素。 该图说明了驾驶数据(包括传感器数据、轨迹和感知信息)如何被组织成一个序列,输入到 Doe-1 世界模型中。然后,模型随时间在不同的模态(图像、文本和动作)上进行下一标记的预测。 ...

March 17, 2025 · 1 min · 131 words · Jassy