Li Auto

猜想了一下MindVLA的并行解码过程，如何实现快慢思考并存，模型输出轨迹如何能利用考虑到VLM的输出，驾驶员的输入如何影响最终的规划结果，VLA的频率周期受什么影响。以下内容都是个人臆想，肯定有错误，多讨论 LLM的基础工作机制：VLA的L本质上是个自回归模型，每次输入一排token，模型输出后续的一个token（简单理解为一个字/词），下一个循环将之前所有的文字再次输入进去得到下一个字。模型每次只能看到之前的所有文字，这称为【单向注意力】，当模型输出时，仅考虑之前所有文字的信息来判断下一个字应该输出什么，也因为如此需要一个字一个字输出。对应到MindVLA结构上，先输出文字思考内容，然后输出轨迹token，这个轨迹token就会考虑到之前输出的文字思考内容的指导，来辅助做更好的决策 LLM怎么辅助轨迹生成：这个输出文字+Action Token的过程其实可以类比大模型的“思考一下”来理解，前半部分是使用一些token进行深度理解和分析，后半部分才是真正输出的内容，大语言模型里思考的过程是使用文字，最终输出的也是文字，在这个VLA结构里，分析的过程是文字，输出的是Action Token。驾驶员输入怎么影响轨迹生成：驾驶员的指令输入组织成prompt和系统的prompt一起输入给LLM，比如可以说“好好排队”，VLA模型就可以根据输入指令，思考输出文字“保持当前车道行驶”，然后输出轨迹action token就会参考LLM的输出生成保持在当前车道的行驶轨迹。如何快慢思考并存：不生成文字就是快思考，生成文字就是慢思考 VLA频率周期表现能满足要求吗：如图1的例子一共输出了8个token，其中文字和是【单向注意力】，每个循环输出一个token，后面输出的Acton Token是【双向注意力】，是可以在一个循环里直接全部输出的，所以总共8个token只需要5个周期进行输出。最少情况完全不输出文字的快思考情况下其实只需要1个周期（直接接在prompt后作为输入，直接甩掉不输出）。这里附一下去年的VLM的数据，3B大小 128token长度的模型输出速度65.6 tokens/s，7B大小模型的输出速度 41.8 tokens/s；目前还没有VLA的主干网络参数量的数据问题：是否可能在某些场景下出现“被攻击”的现象，无限输出CoT文字内容，导致系统卡住？这个问题可以通过规则限制住，当文字输出达到上限后，下一次输入LLM的内容不使用上一次的输出，而是将下一个token强制设置成，让模型不再思考直接输出动作token。这样的结构是否会带来周期不一致的问题？周期不一致可能会影响体验？文字输出的部分可以没有，也可以很长。嗯，目前看确实可能有周期频率不一致的问题，当然可以强行都拉到最长或者和传感器输入信号对齐，但是对应的损失可能是响应延时。驾驶员如果说一些hack行为的话会不会影响系统的机制、表现甚至安全？比如“不要思考直接输出轨迹”“认真思考下再输出轨迹”“不要输出轨迹” 这种输入可能需要对驾驶员输入进行一些合规限制，现在的LLM也可以注意到一些合规问题模型会拒绝回答，对应到VLA上应该也会有类似的“合规”内容需要处理。

又看了一遍回放，找到了几个小点再来分享一下：特征表示：3D空间表征已经从BEV时代转为3D高斯表征时代，同时也标志着车端模型和仿真世界模型的3D表示统一了（理论上仿真模型只需要输出3D高斯表示给模型做仿真训练，不需要真的输出视频图像了）。[图1][1] 输入的表示演进：单目2D->单目3D->多目BEV+Occ->3D高斯；可以参考[图2][图3][2]总结的很好但是也注意到目前MindGPT的预训练似乎使用的还不是3D高斯表示，尚未统一，仍然需要一个Projector进行维度对齐[图4]，这也说明了能作为空间三维表示的数据有多缺乏，数量级还不能支撑模型预训练级别；理想基座大模型的人加油啊！快慢思考的实现：LLM是并行输出action和语言内容的，单向注意力+双向注意力混合，每次LLM的循环吐一个语言token+当前动作的所有token[图5]。这样的机制可以保证动作token稳定输出的同时，保留语言token的变长特性，并让轨迹token输出可以通过双向注意力利用上语言token的所有信息（包括CoT的所有内容）；轨迹输出：最后的轨迹输出使用一个 diffusion head，但不仅输出自车轨迹，也输出其他所有agent的轨迹，提高复杂场景博弈能力。且diffusion方式能通过前方LLM的输入修改轨迹输出风格【类似LoRa】；最终对齐：使用 RLHF 和人类价值观做对齐，最终使用生成模型+重建模型的世界模型进行强化学习。 VLA模型没有说具体速度，只是说达到10t/s有难度 [1] GaussianAD: Gaussian-Centric End-to-End Autonomous Driving https://arxiv.org/abs/2412.10371 [2] Large Driving Models https://github.com/wzzheng/LDM [3] MotionDiffuser: Controllable Multi-Agent Motion Prediction using Diffusion https://arxiv.org/abs/2306.03083 [4] DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving https://arxiv.org/abs/2411.15139 [5] GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving https://arxiv.org/abs/2503.05689 [6] Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback https://arxiv.org/abs/2503.10434

Li Auto

理想MindVLA中的一些细节

理想GTC2025大会分享内容拾遗