MLLM2026· arXiv本周新增

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

Xin Zhou, Dingkang Liang, Xiwu Chen et al.

HERMES++ 首次将 3D 场景理解与未来几何预测统一到单一 LLM-based 框架中，通过 BEV 表示、LLM 增强查询、时序链接和联合几何优化等协同设计，在点云预测和场景理解任务上均超越专业方法。

#World Model#Autonomous Driving#3D Scene Understanding#Point Cloud Prediction#Multi-modal LLM#BEV#Future Prediction#Joint Optimization

核心贡献

01提出统一的 HERMES++ 框架，首次在单一模型中融合 3D 场景理解和未来几何预测两个异构任务
02设计 BEV 表示模块，将多视角相机信息整合为与 LLM 兼容的结构化表征
03引入 LLM 增强的世界查询机制，实现从理解分支到生成分支的知识迁移
04构建 Current-to-Future Link 时序连接，将语义上下文条件化于几何演化预测
05提出 Joint Geometric Optimization 策略，结合显式几何约束与隐式潜空间正则化
06在 nuScenes 等基准上验证方法有效性，场景理解与点云预测均达 SOTA

问题动机

自动驾驶系统需要同时具备"理解当前场景"和"预测未来演化"的能力。然而现有方法存在显著的能力分裂：生成式世界模型（如 GAIA-1、DriveDreamer）擅长预测未来场景视觉输出，但缺乏语义推理能力；大语言模型（LLM）虽然展现强大的多步推理能力，却无法预测物理世界的几何演化。

HERMES++ 试图打破这一壁垒，在统一框架下同时解决：

3D 场景理解任务：给定当前多视角图像，输出场景的语义描述、目标检测结果等
未来几何预测任务：预测未来时刻的 LiDAR 点云或 BEV 几何结构

方法核心

1. BEV 表示模块

HERMES++ 采用 Bird's-Eye View (BEV) 作为空间表征的统一载体：

$\mathbf{B}_{t} = \text{BEVEncoder}(\text{MultiViewImages}_{t})$

通过标准的 BEVFormer 或类似架构，将 $N$ 个环视相机的图像特征压缩到 $H \times W$ 的鸟瞰图网格中。这种表示的优势在于：

几何友好：直接对应自车坐标系下的规划决策空间
LLM 友好：可展平为序列token，适配 Transformer 架构

2. LLM 增强的世界查询

将 BEV 特征解码为两组查询：

理解查询 $\mathbf{Q}_{\text{und}}$ ：用于 3D 目标检测、车道线感知等任务
几何查询 $\mathbf{Q}_{\text{geo}}$ ：用于未来点云的生成

关键设计是 LLM 的语义知识注入：

$\mathbf{Q}_{\text{geo}} = \mathbf{Q}_{\text{geo}} + \text{MLP}(\text{LLM}(\mathbf{B}_{t}))$

通过一个轻量 adapter，LLM 对 BEV 的语义理解（如"前方有一辆公交车"）被迁移到几何查询，增强生成的结构化程度。

3. Current-to-Future Link

时序模块负责将 $t$ 时刻的状态传播到 $t+1$ 时刻。论文设计了一种双向 Conditioning 机制：

几何演化以前帧几何状态为条件，同时以前帧语义上下文（来自 LLM 分支）为引导：

$\mathbf{S}_{t+1} = \text{GeometricEvolution}(\mathbf{B}_{t}, \mathbf{S}_{t}; \text{SemanticContext}_{t})$

这确保预测的点云不仅在物理上连续，而且在语义上与场景理解保持一致。

4. Joint Geometric Optimization

训练阶段采用多任务联合优化：

$\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{und}} + \lambda_{1}\mathcal{L}_{\text{geo}} + \lambda_{2}\mathcal{L}_{\text{struct}}$

其中 $\mathcal{L}_{\text{struct}}$ 是结构性正则项：

$\mathcal{L}_{\text{struct}} = \mathbb{E}[\|\nabla_{\mathbf{z}} \hat{\mathbf{P}}\|_{2} + \|\mathbf{P}_{\text{GT}} - \hat{\mathbf{P}}\|_{1}]$

第一项约束潜变量空间的光滑性（隐式正则），第二项是对齐预测点云与真值的 Chamfer 距离（显式几何约束）。这种组合确保模型既不过拟合，也不失去几何保真度。

实验洞察

在 nuScenes 和 Argoverse 等数据集上，HERMES++ 相比专精模型的优势体现在：

点云预测的边缘质量提升约 15%（更少的毛刺和空洞）
场景理解的跨模态一致性增强（文本描述与预测几何吻合度更高）

面试视角

面试问题与解答要点

Q1: HERMES++ 为什么选择 BEV 而不是直接在图像空间做预测？

BEV 天然适合自动驾驶的几何建模——它与规划坐标系对齐，避免了透视畸变问题。更重要的是，BEV 表示可展平为 token 序列，自然适配 Transformer-based LLM 的序列建模范式，降低了多模态融合的工程复杂度。

Q2: LLM 增强的世界查询具体是如何工作的？

核心是一个轻量 adapter 模块。BEV 特征先过 MLP 投影到 LLM 的 embedding 空间，LLM 对其做自注意力得到语义增强特征，再通过另一个 MLP 投影回 Query 空间。这种"穿越"设计让几何分支能利用 LLM 的预训练知识，同时保持 LLM 冻结以避免灾难性遗忘。

Q3: Current-to-Future Link 和传统的时序模型（如 LSTM）有什么区别？

关键差异在于 Conditioning 来源的多元化。传统时序模型只以历史状态为条件，而 Current-to-Future Link 还引入了语义上下文——由 LLM 理解分支提供。这意味着"公交车"这个语义会在几何层面影响预测：如果前帧检测到公交车，未来点云中该区域应该有连续的移动目标，而非背景漂移。

Q4: Joint Geometric Optimization 中的结构性正则如何实现？

包含两个部分：(1) 潜空间梯度正则，约束生成模型的潜变量对输入扰动不要太敏感；(2) Chamfer Distance 损失，直接度量预测点云与真值点云的几何距离。这种"隐式+显式"的组合确保模型学到正确的几何流形，避免生成"物理不可能"的点云。

Q5: 这篇工作的局限性是什么？

主要局限：(1) 当前主要验证在相机+LiDAR 融合设置，纯视觉端到端泛化能力未充分探索；(2) 长时序预测（如 5 秒以上）的质量有待提升；(3) LLM 知识迁移的效率取决于 adapter 设计，更大规模 LLM 的利用仍是开放问题。

Q6: 世界模型在自动驾驶中的核心价值是什么？

世界模型是"仿真即测试"范式的基石：它能生成无限多样的驾驶场景，用于验证规划算法的安全性。同时，高质量的世界模型使端到端系统能在合成环境中进行大规模强化学习训练，缓解真实数据稀缺问题。