Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable VLN
摘要
现有 VLN 框架存在端到端范式局限、物理表现劣势及动态环境适应性差等问题。本文提出 DualVLN 双系统架构,借鉴认知心理学双系统理论,将导航任务解耦为'高层认知理解'与'低层物理执行',实现了宏观规划与微观控制的分离。
1. INTRODUCTION
1.1 现有端到端 VLN 架构的本质缺陷
- 计算与控制的失配:现有方法让庞大的 VLM 直接输出高频的底层控制指令,大模型推理耗时极高,导致机器人动作产生严重延迟。
- 执行轨迹碎片化:直接输出短视距的离散动作(如每次移动 0.25 米),使得物理运动不够平滑,缺乏连贯性。
- 层级耦合导致决策僵化:认知推理、全局路线规划和局部避障被混杂在单一网络中,无法应对突发动态障碍物。
1.2 DualVLN 双系统架构
- 系统 2(慢系统):采用大型基础 VLM,负责'看和想'。其输出是显式的中间像素目标,为整个导航提供阶段性的宏观指引。
- 系统 1(快系统):采用轻量级扩散策略模型,高频运行,接收系统 2 的指引,将其转化为连续平滑的物理移动轨迹,专门负责动态避障与精准执行。
1.3 解耦顺序训练
- 保护 VLM 知识不被遗忘:通过冻结系统 2 的权重,规避灾难性遗忘。
- 数据需求差异化:系统 2 利用海量跨领域推理数据;系统 1 专注于小规模高精度局部运动数据。
- 异步运行优势:系统 1 独立接收高频相机图像并快速推理,极大提升了控制频率。
1.4 显隐式双目标引导机制
- 显式像素目标:系统 2 直接在图像上标出目标点,保证规划过程的可解释性。
- 隐式潜在目标:通过可学习的潜在查询从 VLM 深层网络提取丰富的隐语义特征,使系统 1 不仅知道去哪,还能感知周围环境的语义细节。
1.5 实验验证与基准创新
- 双域验证:在连续仿真环境(VLN-CE)和物理写实环境(VLN-PE)中均达 SOTA,并在跨平台实机部署中证实了有效性。
- 提出 Social-VLN:针对现有基准缺乏动态行人干扰的问题,首创了测试机器人在遭遇移动人类时的社会意识及任务恢复能力的基准。
2. RELATED WORK
2.1 Vision-Language-Action Model for Navigation
- Text-based Actions:高维度的语义预测难以直接转化为平滑的底层连续物理运动。
- Pixel Grounding:缺乏执行能力,必须外挂传统导航模块。
- End-to-End Trajectories:同步框架下大模型的高延迟限制了高频决策能力。
- Existing Dual-systems:大多局限于桌面级机械臂操作,无法处理长视距规划。
- DualVLN 的突破定位:首个异步双系统架构,针对长视距指令跟随、精确路径规划及未见环境中的导航任务设计。
2.2 Visual Navigation Policy Learning
- 传统模块化方法:依赖显式建图和定位,易产生累计误差且调优繁复。
- 端到端学习策略:基于深度学习的导航策略成为主流,分为泛化分支和迁移分支。
- DualVLN 系统 1 的定位:纯 RGB 视觉输入的导航策略网络,以 VLM 输出的潜在隐式目标作为条件触发并引导。
3. METHOD
3.1 Overview
- 系统 2:基于 VLM 的规划器,通过在图像像素空间中预测中期路点进行全局规划,提供空间锚定的目标。
- 系统 1:多模态目标条件化的扩散策略,以当前观测和来自系统 2 的异步潜在特征为条件生成连续轨迹,实现鲁棒的实时控制。

3.2 SYSTEM 2: VLM-BASED PIXEL-GOAL GROUNDING WITH SELF-DIRECTED VIEW ADJUSTMENT
3.2.1 Farthest Pixel Goal Grounding
- 基座模型:Qwen-VL-2.5。将高层规划建模为最远像素目标锚定问题。
- 流程:输入多帧视觉 + 文本,输出 2D 像素坐标。训练样本通过将智能体的 3D 轨迹投影到 2D 的第一人称观测图像上获得,并利用深度图识别可见区域。
3.2.2 Self-Directed View Adjustment
- 系统 2 自主决定何时扫描环境并调整相机角度(如左/右转 15°),在预测下一个像素目标之前主动寻找信息丰富的视角,解决高度视角差和 FOV 限制问题。
3.3 SYSTEM 1: A DIFFUSION TRANSFORMER POLICY WITH MULTIMODAL CONDITIONING
3.3.1 Latent Goal Representation
- 系统 2 内部隐藏层状态编码了丰富的多模态上下文信息 $X$。附加一组可学习的潜在查询 $Z$,通过 prompt tuning 更新,从 $X$ 中提取与任务相关的语义信息,生成中间潜在目标表征 $Z'$。
3.3.2 Multi-Modal Conditioning Diffusion Transformer
- 系统 1: DiT:生成平滑的轨迹(32 个密集的路径点)。输入包括来自系统 2 的低频轨迹潜在特征 $Z'$ 和高频的 RGB 输入。
- 异步推理处理:在时间 $t+k$,系统 1 需解释时间 $t$ 生成的过时潜在目标,估计已行驶距离并适应动态变化。融合两个时间步的特征,并通过 Q-Former 压缩为 32 个 token。
3.3.3 Flow Matching
- 给定真实轨迹路点 $X_0$ 和两个条件信号(轨迹潜在特征 $Z'$ 和融合 RGB token $F$)。
- 加噪轨迹定义为:$X_u = \alpha_u X_0 + \sigma_u \epsilon$。
- DiT 被训练用于预测时间步 $u$ 时轨迹的速度 $\dot{X}_u$,该预测以 $Z'$ 和 $F$ 为条件。
- 训练目标是最小化预测速度与真实速度之间的均方误差:$\mathcal{L}{\text{flow}} = \mathbb{E}{u, X_0, \epsilon} [| \hat{\dot{X}}_u - \dot{X}_u |_2^2]$。
3.4 IMPLEMENTATION DETAILS
- 系统 2 的训练配置:采用 7B 参数的 QwenVL-2.5,沿用 StreamVLN 的数据配方,进行 1 个 Epoch 的全参数微调。
- 系统 1 的网络结构:设定 4 个可学习的潜在查询,维度从 3584 线性投影至 768。视觉编码器采用 DepthAnythingV2-Small 的 ViT 骨干。DiT 包含 12 个 Transformer 层、384 隐藏层维度及 6 个注意力头。
4. SOCIAL VISION-AND-LANGUAGE NAVIGATION BENCHMARK
4.1 研究动机
- 打破静态环境的局限:传统 VLN-CE 基准缺乏对动态障碍物(如走动的人)的模拟。真实环境中机器人需具备社会意识(避让行人)及轨迹恢复能力。
4.2 Benchmark Curation
- 技术底座:建立在经典的 R2R-CE 静态数据集之上,利用 Habitat 3.0 仿真器引入逼真的动态人形智能体。
- 策略性放置:将行人放置在导航的标准轨迹上,增加交互概率,同时确保通道未被完全堵死。
4.3 Metrics
- 引入人类碰撞率(Human Collision Rate, HCR),量化机器人与动态行人发生不安全交互的失败次数,评估任务完成度与安全意识。
4.4 Training Data Collection
- 开发自动化数据生成流水线采集动态避障专家轨迹。当画面中行人掩码占比超过阈值时触发避障逻辑,调用修改版 A* 算法重新规划无碰撞安全绕行轨迹。
- 在 60 个 MP3D 室内场景中,自动生成高达 76.3 万个包含社会导航交互的回合数据。
5. EXPERIMENTS
5.1 SIMULATION EXPERIMENTS

5.2 REAL-WORLD CROSS-EMBODIMENT EXPERIMENTS



