【论文阅读】Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable VLN

优质文章学习记录

10 Apr 2026 — 17 min read

摘要
- 现有VLN框架的痛点剖析
  - 端到端范式的局限： 传统方法试图使用单一网络将复杂的视觉和语言输入直接转化为机器人的电机控制指令（离散动作）。这种强耦合设计导致大型VLM沉重的计算负荷直接拖慢了控制频率。
  - 物理表现劣势： 由于输出的是短期离散动作（如“向前走一步”、“转30度”），机器人的运动轨迹表现出强烈的碎片化和不连贯特征。
  - 动态环境适应性差： 在面对现实世界中突然出现的行人或移动障碍物时，由于端到端模型的高延迟，系统无法做出实时的局部避障决策。
- 核心创新：Dual-System
- 理论渊源： 本文架构深刻借鉴了认知心理学中关于人类思维的双系统理论（系统1负责快速、直觉的反射；系统2负责缓慢、深度的逻辑推理）。
  - 分层解耦： DualVLN打破了传统的端到端黑盒，将导航任务解耦为“高层认知理解”与“低层物理执行”，实现了宏观规划与微观控制的分离。
宏观规划大脑：System 2
- 运行机制： 慢速锚定（Grounds slowly）。它不需要高频运行，而是以相对较低的频率处理视觉与语言信息。
- 输出目标： 它不直接控制电机，而是进行深度推理，在图像空间中预测出下一步需要到达的中期路点（mid-term waypoint goals），为底层执行提供明确的引导。
- 微观执行小脑：System 1
  - 技术架构： 采用Diffusion Transformer作为策略网络，且设计为轻量级，确保了极低的计算延迟。
- 运行机制： 快速移动（Moves fast）。它高频运行，接收系统2下发的指令（显式像素目标和潜在特征），结合当前本体感受，实时生成连续且平滑的运动轨迹，从而实现精准的局部避障与平滑运动。
解耦训练范式的优势
- 保护泛化能力： 在传统端到端微调中，大型VLM往往会丢失其预训练获得的广泛知识。解耦训练使得VLM（系统2）可以专注于推理任务，最大限度保留其零样本和泛化能力。
- 提升可解释性： 由于系统2输出显式的中间目标（像素路点），而系统1负责执行该目标，这种模块化设计使得研究人员可以清晰地定位导航失败的原因（是规划错了，还是执行错了），大幅提升了系统的可解释性。
实验与实际部署成果
- 全面超越： 在所有标准的VLN评测基准上达到State-of-the-Art（SOTA）水平。
- 真实世界鲁棒性： 突破了纯仿真研究的局限，真实世界的机器人部署证明了该架构不仅能完成复杂的长程规划，还能在充满动态干扰的真实环境中展现出极强的实时自适应能力。

1. INTRODUCTION

现有端到端VLN架构的本质缺陷
- 计算与控制的失配： 现有方法让庞大的VLM直接输出高频的底层控制指令。大模型的推理耗时极高，导致机器人动作产生严重延迟。
- 执行轨迹碎片化： 直接输出短视距的离散动作（如每次移动0.25米），使得物理运动不够平滑，缺乏连贯性。
- 层级耦合导致决策僵化： 认知推理、全局路线规划和局部避障被混杂在单一网络中。这导致系统在面临突发动态障碍物时，无法做出敏捷的局部修正。
DualVLN双系统架构
- 系统2（慢系统）： 采用大型基础VLM。它不负责具体运动，只负责“看和想”。其输出是显式的中间像素目标，为整个导航提供阶段性的宏观指引。
- 系统1（快系统）： 采用轻量级扩散策略模型。它高频运行，接收系统2的指引，并将其转化为连续平滑的物理移动轨迹，专门负责动态避障与精准执行。
解耦顺序训练
- 保护VLM知识不被遗忘： 若进行端到端微调，底层物理控制数据会破坏VLM原有的语言与视觉泛化能力。解耦训练通过冻结系统2的权重，完美规避了灾难性遗忘。
- 数据需求差异化： 系统2可以利用海量的跨领域推理数据进行训练；而系统1只需专注于小规模、高精度的局部运动数据。
- 异步运行优势： 解耦使得系统1可以独立接收高频相机图像并快速推理，极大提升了控制频率。
显隐式双目标引导机制
- 显式像素目标（Explicit Pixel Goal）： 系统2直接在图像上标出目标点。这保证了规划过程的可解释性，一旦导航失败，研究者可以直观判断是规划错误还是执行错误。
- 隐式潜在目标（Implicit Latent Goal）： 仅靠一个二维像素点传递的信息太少。本文通过可学习的潜在查询（Learnable latent queries），从VLM深层网络中提取出丰富的隐语义特征。这种机制使系统1不仅知道去哪，还能感知周围环境的语义细节，避免双系统退化为简单的串联模块。
实验验证与基准创新
- 双域验证： 在连续仿真环境（VLN-CE）和物理写实环境（VLN-PE）中均达SOTA。并且在跨平台实机部署中证实了有效性。
- 提出Social-VLN： 针对现有基准缺乏动态行人干扰的问题，作者首创了Social-VLN基准。它专门测试机器人在遭遇移动人类时的“社会意识（避让行人）”以及被干扰后的“任务恢复能力”。

Text-based Actions
- 许多方法将物理导航动作直接转化为文本序列，利用大模型进行下一个词预测。
- 局限： 这种高维度的语义预测难以直接转化为平滑的底层连续物理运动。
Pixel Grounding
- 部分研究将导航简化为在图像上预测目标像素点。
- 局限： 它们缺乏执行能力，必须外挂传统导航模块才能完成实际移动。
End-to-End Trajectories
- 尝试将VLM的潜在特征直接映射为连续的运动轨迹。
- 局限： 它们采用的是同步框架，大模型的高延迟严重限制了系统的高频决策能力，无法应对动态环境。
Existing Dual-systems
- 近期虽有提出“快-慢”推理结合的双系统架构。
- 局限： 这些研究大多局限于桌面级的机械臂操作任务，无法处理长视距规划或大尺度的跨空间导航。
DualVLN的突破定位： 针对上述所有痛点，本文提出了首个异步双系统架构。它专门针对长视距指令跟随、精确路径规划以及未见环境中的导航任务而设计。

传统模块化方法
- 高度依赖显式的环境建图和自我定位。
- 局限： 容易产生累计误差、系统延迟高，且需要进行繁复的超参数调优。
端到端学习策略： 为克服传统方法的缺陷，基于深度学习的导航策略成为主流。当前研究主要分为两个核心分支：
- 泛化分支： 致力于提升模型在不同机器人形态间的零样本泛化能力。
- 迁移分支： 专注于提升训练效率以及仿真到真实世界的迁移成功率。
图像目标导航： 一种新兴范式，要求机器人直接根据给定的目标图像生成控制策略。
DualVLN系统1的定位：
- 本文的System-1汲取了上述学习策略的优势。它是一个纯RGB视觉输入的导航策略网络。
- 其核心创新在于：它是以VLM输出的潜在隐式目标（Latent goals）作为条件触发并引导的。

3. METHOD

Overview
- 系统2是一个基于VLM的规划器，它通过在图像像素空间中预测中期路点来进行全局规划，从而提供空间锚定的目标。
- 系统1是一个多模态目标条件化的扩散策略。它以当前观测和来自系统2的异步潜在特征为条件生成连续轨迹，从而在复杂环境中实现鲁棒的实时控制。

3.1 SYSTEM 2: VLM-BASED PIXEL-GOAL GROUNDING WITH SELF-DIRECTED VIEW ADJUSTMENT

系统2的核心模块：高层像素目标锚定与自主视角调整结合
- 系统2在一个迭代过程中，将高层像素目标锚定与自主视角调整结合起来
- 在每个导航步，智能体观察当前的RGB图像帧和历史信息，决定是调整视角还是输出像素目标。

3.1.1 Farthest Pixel Goal Grounding

基座模型：Qwen-VL-2.5
- 为了使Qwen-VL-2.5适应VLN任务，我们将高层规划建模为一个最远像素目标锚定问题。
- 将抽象的导航规划具体化为在画面中寻找能到达的最远有效点。
流程
- 输入：多帧视觉+文本；输出：2D像素坐标
- 训练样本：将智能体的3D轨迹投影到2D的第一人称观测图像上，并从智能体的位置测量可见性。
  - 在投影轨迹之前，利用深度图和相机到像素点的距离，来识别哪些点落在当前视图的可见区域内。
  - 任何距离超过对应深度值的轨迹点，都会被视为被遮挡并予以丢弃。
  - 基于这种投影机制，作者将原始的VLN-CE轨迹分割成像素目标锚定的训练样本。

3.1.2 Self-Directed View Adjustment

将3D轨迹投影到2D像素坐标上可能会引发问题。
- 高度视角差会导致空间位置的误判（深度歧义）。
- FOV（视场角）限制导致目标丢失。
系统2自主决定何时扫描环境并调整相机角度。它使用如左/右转15°、上/下看15°等离散动作，在预测下一个像素目标之前，主动寻找信息丰富的视角。

3.2 SYSTEM 1: A DIFFUSION TRANSFORMER POLICY WITH MULTIMODAL CONDITIONING

3.2.1 Latent Goal Representation

系统2在完成显式目标（像素点）预测的同时，其内部的隐藏层状态已经编码了丰富的多模态上下文信息，记为序列XXX
附加一组可学习的潜在查询 ZZZ，它们被随机初始化并通过prompt tuning进行更新。
将拼接后的序列 [X;Z][X; Z][X;Z] 输入VLM进行处理，使得 ZZZ 能够关注并从 XXX 中提取与任务相关的语义信息。
生成的结果 Z′Z'Z′ 构成了中间潜在目标表征，它作为系统1进行精确的底层轨迹生成的条件。

系统1:DiT
- 它生成平滑的轨迹（32个密集的路径点）
- 输入：来自系统2的低频轨迹潜在特征 Z′Z'Z′；高频的RGB输入。
由于双系统推理是异步执行的（慢速的系统2，快速的系统1）
- 在时间 ttt 生成的潜在目标保持固定。
- 在时间 t+kt+kt+k，系统1仍必须解释这个过时的潜在目标以准确更新轨迹，它需要估计已经行驶的距离并适应动态变化。
- 所以，系统1同时编码了系统2在时间 ttt 的最后一帧RGB特征，以及时间 t+kt+kt+k 的当前观测特征。
流程
- 两幅图像首先由ViT编码器进行处理，以提取高维视觉特征。
- 使用自注意力模块将这两个时间步的特征进行融合。
- 为了保持快速推理，融合后的特征被Q-Former进一步压缩为32个token
  - K 和 V 来自ViT
  - Q就是要压缩的32个token，一开始随机初始化。

3.2.3 Flow Matching

给定真实轨迹路点 X0X_0X0 和两个条件信号（轨迹潜在特征 Z′Z'Z′ 和融合RGB token FFF）
在每个训练步，首先采样一个扩散时间步 u∼U(0,1)u \sim \mathcal{U}(0, 1)u∼U(0,1) 和一个噪声向量 ϵ∼N(0,I)\epsilon \sim \mathcal{N}(0, I)ϵ∼N(0,I)。
加噪轨迹定义为：Xu=αuX0+σuϵX_u = \alpha_u X_0 + \sigma_u \epsilonXu=αuX0+σuϵ, (1) 其中 αu\alpha_uαu 是关于 uuu 的递减函数，σu\sigma_uσu 是关于 uuu 的递增函数。
DiT被训练用于预测时间步 uuu 时轨迹的速度 X˙u\dot{X}_uX˙u，该预测以 Z′Z'Z′ 和 FFF 为条件：
X˙^u=fθ(Xu,u,Z′⊕F) \hat{\dot{X}}_u = f_\theta(X_u, u, Z' \oplus F) X˙^u=fθ(Xu,u,Z′⊕F)
- 其中 ⊕\oplus⊕ 表示拼接，fθf_\thetafθ 是Transformer网络。
- 与标准DDPM预测噪声不同，流匹配的DiT预测的是从纯噪声指向真实数据的速度向量（即向量场）
训练目标是最小化预测速度与真实速度之间的均方误差：
Lflow=Eu,X0,ϵ[∥X˙^u−X˙u∥22] \mathcal{L}_{\text{flow}} = \mathbb{E}_{u, X_0, \epsilon} \left[ \| \hat{\dot{X}}_u - \dot{X}_u \|_2^2 \right] Lflow=Eu,X0,ϵ[∥X˙^u−X˙u∥22]

3.3 IMPLEMENTATION DETAILS

系统2的训练配置
- 基座与数据： 采用70亿参数的QwenVL-2.5（7B）作为基座模型，并沿用StreamVLN的数据配方。
- 微调策略： 进行了1个Epoch的全参数微调（Fully unfrozen），即视觉编码器和LLM主干网络在训练期间均参与梯度更新。
系统1的网络结构
- 特征提取与映射： 设定了4个可学习的潜在查询（Latent queries）来提取系统2的隐式目标特征。在输入扩散模型前，这些特征的维度被从3584线性投影（压缩）至768。
- 视觉编码器： 采用DepthAnythingV2-Small的ViT骨干网络来处理实时的RGB图像输入。
- DiT轻量化设计： 为了保障极低的推理延迟，扩散Transformer（DiT）被设计得非常紧凑：仅包含12个Transformer层、384的隐藏层维度以及6个注意力头。

研究动机：打破静态环境的局限
- 现有缺陷： 传统的VLN-CE基准测试专注于静态的室内布局，缺乏对动态障碍物（如走动的人）的模拟。
- 核心需求： 在真实环境中，机器人不仅需要能到达终点，还必须具备社会意识（Social awareness）——即在遇到行人时能主动避让，并在绕路后具备轨迹恢复能力（Trajectory recovery），继续完成原定的导航任务。
Benchmark Curation
- 技术底座： 该基准建立在经典的 R2R-CE 静态数据集之上，并利用 Habitat 3.0 仿真器引入了逼真的动态人形智能体。
- 策略性放置：
  - 作者没有让行人在场景中漫无目的地随机游走。因为VLN的任务路径通常较短，随机游走很难与机器人产生交集。
  - 因此，作者将行人放置在导航的标准轨迹上。这种设计极大地增加了机器人与行人相遇并产生交互的概率，从而构成了高难度的真实测试场景。
  - 可行性校验： 为了保证测试的合理性，作者对每一个测试回合进行了严格校验，确保行人不会把通道完全堵死，从而排除了纯物理层面无法通行的死局。
Metrics
- 在保留传统VLN成功率等标准指标的基础上，作者引入了人类碰撞率（Human Collision Rate, HCR）。
- 指标意义： HCR 专门用于量化机器人与动态行人发生不安全交互的失败次数。这使得 Social-VLN 能够双管齐下：既评估任务完成度，又严谨评估机器人在动态环境中的安全意识。
Training Data Collection
- 为了让系统1学会躲避行人，作者还开发了一套自动化的数据生成流水线，用于大规模采集动态避障的专家轨迹：
- 视觉触发机制： 在每次采集任务中，系统会持续监控机器人的第一人称视角。当画面中行人掩码的像素占比超过预设的阈值时（即判断行人距离过近且可能发生冲突），触发避障逻辑。
- 算法重规划： 一旦触发阈值，系统会调用修改版的 A* 算法（A-star algorithm），在底层物理空间中重新规划出一条无碰撞的安全绕行轨迹。
- 数据规模： 依靠这套流水线，作者在 60 个 MP3D 室内场景中，自动生成了高达 76.3万（763K） 个包含社会导航交互的回合数据。这为训练具备高度社会适应性的导航智能体提供了庞大的基础资源。

【论文阅读】Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable VLN

优质文章学习记录

GROUND SLOW, MOVE FAST: A DUAL-SYSTEM FOUNDATION MODEL FOR GENERALIZABLE VISION AND-LANGUAGE NAVIGATION

1. INTRODUCTION

2.1 Vision-Language-Action Model for Navigation

2.2 Visual Navigation Policy Learning

3. METHOD

3.1 SYSTEM 2: VLM-BASED PIXEL-GOAL GROUNDING WITH SELF-DIRECTED VIEW ADJUSTMENT

3.1.1 Farthest Pixel Goal Grounding

3.1.2 Self-Directed View Adjustment

3.2 SYSTEM 1: A DIFFUSION TRANSFORMER POLICY WITH MULTIMODAL CONDITIONING

3.2.1 Latent Goal Representation

3.2.3 Flow Matching

3.3 IMPLEMENTATION DETAILS

5. EXPERIMENTS

5.1 SIMULATION EXPERIMENTS

5.2 REAL-WORLD CROSS-EMBODIMENT EXPERIMENTS

5.3 ABLATION STUDY

Read more

别把 F1 开成老头乐：GitHub Copilot 深度调教与 7 个“上下文工程”秘籍

什么是Agentic AI？Agentic AI 与传统 AIGC 有什么区别？

Qt Creator配置AI编程插件GitHub Copilot

Claude部署（copilot反向代理）

GROUND SLOW, MOVE FAST: A DUAL-SYSTEM FOUNDATION MODEL FOR GENERALIZABLE VISION AND-LANGUAGE NAVIGATION

1. INTRODUCTION

2. RELATED WORK

2.1 Vision-Language-Action Model for Navigation

2.2 Visual Navigation Policy Learning

3. METHOD

3.1 SYSTEM 2: VLM-BASED PIXEL-GOAL GROUNDING WITH SELF-DIRECTED VIEW ADJUSTMENT

3.1.1 Farthest Pixel Goal Grounding

3.1.2 Self-Directed View Adjustment

3.2 SYSTEM 1: A DIFFUSION TRANSFORMER POLICY WITH MULTIMODAL CONDITIONING

3.2.1 Latent Goal Representation

3.2.2 Multi-Modal Conditioning Diffusion Transformer

3.2.3 Flow Matching

3.3 IMPLEMENTATION DETAILS

4. SOCIAL VISION-AND-LANGUAGE NAVIGATION BENCHMARK

5. EXPERIMENTS

5.1 SIMULATION EXPERIMENTS

5.2 REAL-WORLD CROSS-EMBODIMENT EXPERIMENTS

5.3 ABLATION STUDY

Read more

别把 F1 开成老头乐：GitHub Copilot 深度调教与 7 个“上下文工程”秘籍

什么是Agentic AI？Agentic AI 与传统 AIGC 有什么区别？

Qt Creator配置AI编程插件GitHub Copilot

Claude部署（copilot反向代理）