理想MindVLA中的一些细节

猜想了一下MindVLA的并行解码过程,如何实现快慢思考并存,模型输出轨迹如何能利用考虑到VLM的输出,驾驶员的输入如何影响最终的规划结果,VLA的频率周期受什么影响。以下内容都是个人臆想,肯定有错误,多讨论 LLM的基础工作机制:VLA的L本质上是个自回归模型,每次输入一排token,模型输出后续的一个token(简单理解为一个字/词),下一个循环将之前所有的文字再次输入进去得到下一个字。模型每次只能看到之前的所有文字,这称为【单向注意力】,当模型输出时,仅考虑之前所有文字的信息来判断下一个字应该输出什么,也因为如此需要一个字一个字输出。对应到MindVLA结构上,先输出文字思考内容,然后输出轨迹token,这个轨迹token就会考虑到之前输出的文字思考内容的指导,来辅助做更好的决策 LLM怎么辅助轨迹生成:这个输出文字+Action Token的过程其实可以类比大模型的“思考一下”来理解,前半部分是使用一些token进行深度理解和分析,后半部分才是真正输出的内容,大语言模型里思考的过程是使用文字,最终输出的也是文字,在这个VLA结构里,分析的过程是文字,输出的是Action Token。 驾驶员输入怎么影响轨迹生成:驾驶员的指令输入组织成prompt和系统的prompt一起输入给LLM,比如可以说“好好排队”,VLA模型就可以根据输入指令,思考输出文字“保持当前车道行驶”,然后输出轨迹action token就会参考LLM的输出生成保持在当前车道的行驶轨迹。 如何快慢思考并存:不生成文字就是快思考,生成文字就是慢思考 VLA频率周期表现能满足要求吗: 如图1的例子一共输出了8个token,其中文字和是【单向注意力】,每个循环输出一个token,后面输出的Acton Token是【双向注意力】,是可以在一个循环里直接全部输出的,所以总共8个token只需要5个周期进行输出。最少情况完全不输出文字的快思考情况下其实只需要1个周期(直接接在prompt后作为输入,直接甩掉不输出)。 这里附一下去年的VLM的数据,3B大小 128token长度的模型输出速度65.6 tokens/s,7B大小模型的输出速度 41.8 tokens/s;目前还没有VLA的主干网络参数量的数据 问题: 是否可能在某些场景下出现“被攻击”的现象,无限输出CoT文字内容,导致系统卡住? 这个问题可以通过规则限制住,当文字输出达到上限后,下一次输入LLM的内容不使用上一次的输出,而是将下一个token强制设置成,让模型不再思考直接输出动作token。 这样的结构是否会带来周期不一致的问题?周期不一致可能会影响体验?文字输出的部分可以没有,也可以很长。 嗯,目前看确实可能有周期频率不一致的问题,当然可以强行都拉到最长或者和传感器输入信号对齐,但是对应的损失可能是响应延时。 驾驶员如果说一些hack行为的话会不会影响系统的机制、表现甚至安全?比如“不要思考直接输出轨迹”“认真思考下再输出轨迹”“不要输出轨迹” 这种输入可能需要对驾驶员输入进行一些合规限制,现在的LLM也可以注意到一些合规问题模型会拒绝回答,对应到VLA上应该也会有类似的“合规”内容需要处理。

March 26, 2025 · 1 min · 23 words · Jassy

理想GTC2025大会分享内容拾遗

又看了一遍回放,找到了几个小点再来分享一下: 特征表示:3D空间表征已经从BEV时代转为3D高斯表征时代,同时也标志着车端模型和仿真世界模型的3D表示统一了(理论上仿真模型只需要输出3D高斯表示给模型做仿真训练,不需要真的输出视频图像了)。[图1][1] 输入的表示演进:单目2D->单目3D->多目BEV+Occ->3D高斯;可以参考[图2][图3][2]总结的很好 但是也注意到目前MindGPT的预训练似乎使用的还不是3D高斯表示,尚未统一,仍然需要一个Projector进行维度对齐[图4],这也说明了能作为空间三维表示的数据有多缺乏,数量级还不能支撑模型预训练级别;理想基座大模型的人加油啊! 快慢思考的实现:LLM是并行输出action和语言内容的,单向注意力+双向注意力混合,每次LLM的循环吐一个语言token+当前动作的所有token[图5]。这样的机制可以保证动作token稳定输出的同时,保留语言token的变长特性,并让轨迹token输出可以通过双向注意力利用上语言token的所有信息(包括CoT的所有内容); 轨迹输出:最后的轨迹输出使用一个 diffusion head,但不仅输出自车轨迹,也输出其他所有agent的轨迹,提高复杂场景博弈能力。且diffusion方式能通过前方LLM的输入修改轨迹输出风格【类似LoRa】; 最终对齐:使用 RLHF 和人类价值观做对齐,最终使用生成模型+重建模型的世界模型进行强化学习。 VLA模型没有说具体速度,只是说达到10t/s有难度 [1] GaussianAD: Gaussian-Centric End-to-End Autonomous Driving https://arxiv.org/abs/2412.10371 [2] Large Driving Models https://github.com/wzzheng/LDM [3] MotionDiffuser: Controllable Multi-Agent Motion Prediction using Diffusion https://arxiv.org/abs/2306.03083 [4] DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving https://arxiv.org/abs/2411.15139 [5] GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving https://arxiv.org/abs/2503.05689 [6] Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback https://arxiv.org/abs/2503.10434

March 18, 2025 · 1 min · 69 words · Jassy

Doe-1: Closed-Loop Autonomous Driving with Large World Model

Doe-1: 大世界模型下的闭环自主驾驶 arxiv link 引言 自动驾驶技术发展迅速,已从基于规则的系统演进到复杂的人工智能模型。该领域的一个主要挑战是创建能够有效感知环境、预测未来状态并规划适当行动的系统,同时保持这些组件之间的持续反馈循环。清华大学的研究人员开发的 Doe-1 框架是解决这个问题的突破性方法。 如上图所示,Doe-1 提出了一种新颖的闭环自动驾驶框架,它将感知、预测和规划整合到一个大型世界模型中。与传统的将这些任务作为独立模块处理的方法不同,Doe-1 将它们整合成一个协同的系统,以连续的循环处理信息,使车辆能够动态响应其环境的变化。 自动驾驶系统的发展演化 自动驾驶系统传统上采用模块化架构,包括感知(理解环境)、预测(预判下一步会发生什么)和规划(决定采取何种行动)等独立组件。这种方法虽然直观,但也存在一些局限性: 模块之间的信息丢失可能会累积,从而降低整体性能 受限的可扩展性,因为每个模块需要单独的设计和优化 组件之间的弱交互妨碍了对复杂场景的整体推理 如上图所示,自动驾驶模型已经经历了几个世代的发展: 模块化端到端模型(图 a)将感知、预测和规划分开,但同时进行训练 直接端到端模型(图 b)直接将观察映射到动作 LLM/基于 VLM 的模型(图 c)利用语言模型解释场景并决定动作 驱动世界模型(图 d, Doe-1)创建了一个闭环系统,其中所有组件持续相互作用 最近的方法已经开始整合大型语言模型(LLMs)和视觉语言模型(VLMs),以提升场景理解和决策能力。然而,这些模型通常以开环方式运行,意味着它们没有考虑车辆行动如何影响未来对环境的感知。 理解 Doe-1 框架 Doe-1 背后的关键洞察是将自动驾驶视为一个闭环系统,其中感知、预测和规划紧密相连: 如图所示,自动驾驶主要有三种方法: 端到端自动驾驶(图 a):将观察转化为描述,然后转化为行动 自动驾驶世界模型(图 b):根据行动预测未来观测 闭环自动驾驶(图 c):结合了两种方法,形成了一个完整的循环 Doe-1 实现了闭环方法(图 c),这种方法有多个优势: 完整的反馈循环:行动影响未来的观察 统一表示:所有组件共享同一底层模型 时间一致性:系统在时间步之间保持连贯性 这种方法使得 Doe-1 能够处理需要理解行动长期影响的复杂情景。 The Closed-Loop World Model Doe-1 的核心是一个基于自回归变压器架构的大型驾驶世界模型。这个模型将自动驾驶视为一个下一个标记的预测问题,系统学习生成序列中多模态标记的适当下一个元素。 该图说明了驾驶数据(包括传感器数据、轨迹和感知信息)如何被组织成一个序列,输入到 Doe-1 世界模型中。然后,模型随时间在不同的模态(图像、文本和动作)上进行下一标记的预测。 ...

March 17, 2025 · 1 min · 131 words · Jassy