【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation

优质文章学习记录

10 Apr 2026 — 12 min read

本文汇总了具身导航的论文，供大家参考学习，涵盖2026、2025、2024、2023等

覆盖的会议和期刊：CVPR、IROS、ICRA、RSS、arXiv等等

论文和方法会持续更新的～

一、🏠 中文标题版

2026 ✨

[2026] SeqWalker：基于分层规划的时序视野视觉语言导航方法 [ 论文 ] [ GitHub ]
[2026] UrbanNav：从网络规模人类轨迹中学习语言引导的城市导航方法 [ 论文 ] [ GitHub ]
[2026] VLN-MME：面向语言引导视觉导航智能体的多模态大语言模型诊断基准 [ 论文 ] [ GitHub ]
[2026] ASCENT: 实现楼层感知的零样本物体目标导航 [ 论文] [ GitHub ]

2025 😆

[2025] ETP-R1：面向连续环境VLN的进化拓扑规划与强化微调方法 [ 论文 ] [ GitHub ]
[2025] NaviTrace：评估视觉语言模型在真实世界场景中的导航能力 [ 论文 ] [ GitHub ]
[2025] AstraNav-World：面向具身导航的物理一致性世界模型 [ 论文 ] [ GitHub ]
[2025] OneMap：面向零样本多目标导航的实时开放词汇建图方法 [ 论文 ] [ GitHub ]
[2025] VLNVerse：面向视觉语言导航的通用化具身真实仿真与评估基准 [ 论文 ] [ GitHub ]
[2025] Nav-R2：面向开放词汇目标导航的双关系推理框架 [ 论文 ] [ GitHub ]
[2025] DualVLN：面向泛化视觉语言导航的双系统基础模型 [ 论文 ] [ GitHub ]
[2025] SeeNav-Agent：基于视觉提示与步级策略优化RL微调的VLN [ 论文 ] [ GitHub ]
[2025] NeuPAN：基于端到端模型化学习的机器人直接点位导航方法 [ 论文 ] [ GitHub ]
[2025] i2Nav-Robot：面向多传感器融合导航与建图的大规模室内外机器人数据集 [ 论文 ] [ GitHub ]
[2025] CE-Nav：基于流引导强化学习的跨实体局部导航优化 [ 论文 ] [ GitHub ]
[2025] VLN-R1: 使用大型视觉语言模型 LVLM，结合微调和强化训练，实现连续环境导航 [ 论文 ] [ GitHub ]
[2025] StreamVLN: 连续导航，通过在线、多轮对话的方式，输入连续视频，输出动作序列 [ 论文 ] [ GitHub ]
[2025] REGNav：“先学房间风格，再学导航决策”的分层思路，解决跨房间导航的视觉关联难题 [ 论文 ] [ GitHub ]
[2025] ForesightNav：基于场景想象的探索策略，用于机器人在未知环境中高效导航 [ 论文 ] [ GitHub ]
[2025] DualMap：在线开放词汇制图系统，使用自然语言理解和导航动态 3D 环境 [ 论文 ] [ GitHub ]
[2025] WMNav：将视觉语言模型集成到世界模型中以实现对象目标导航 [ 论文 ] [ 项目 ] [ GitHub ]
[2025] UniGoal：迈向通用零样本目标导向导航 [ 论文 ] [ 项目 ] [ GitHub ]
[2025] CityNavAgent：具有分层语义规划和全局记忆的空中视觉和语言导航 [ 论文 ] [ GitHub ]
[2025] VL-Nav：基于空间推理的实时视觉语言导航 [ 论文 ]
[2025] HA-VLN：具有动态多人交互、真实世界验证和开放排行榜的离散-连续环境中人机感知导航基准 [ 论文 ] [ 项目 ] [ GitHub ]
[2025] FlexVLN：灵活适应多样化视觉和语言导航任务 [ 论文 ]
[2025] 3D-Mem：用于具身探索和推理的 3D 场景记忆 [ 论文] [ 项目 ] [ GitHub ]
[2025] EfficientEQA：一种高效的开放词汇具体化问答方法 [ 论文 ]
[2025] 用于安全和平台感知机器人导航的学习感知前向动力学模型 [ 论文 ] [ GitHub]
[2025] 室内体现人工智能中的语义映射——全面综述及未来方向 [ 论文 ]
[2025] TRAVEL：用于视觉和语言导航的免训练检索与对齐 [ 论文 ]
[2025] VR-Robo：用于视觉机器人导航和运动的真实到模拟到真实的框架 [ 论文 ]
[2025] NavigateDiff：视觉预测器是零样本导航助手 [ 论文 ]
[2025] MapNav：一种通过带注释的语义图实现的新型记忆表征，用于基于 VLM 的视觉和语言导航 [ 论文 ]
[2025] OpenFly：用于空中视觉语言导航的多功能工具链和大规模基准测试 [ 论文 ]
[2025] 连续环境中的地面视点视觉和语言导航 [ 论文 ]
[2025] 基于 LLM 推理的运动代理动态路径导航 [ 论文 ]
[2025] SmartWay：增强型航点预测和回溯，用于零样本视觉和语言导航 [ 论文 ]
[2025] Vi-LAD：视觉语言注意力蒸馏在动态环境中实现社交感知机器人导航 [ 论文 ]
[2025] PanoGen++：面向视觉和语言导航的领域自适应文本引导全景环境生成 [ 论文 ]
[2025] 视觉想象能改善视觉和语言导航代理吗？[ 论文 ] [ 项目 ]
[2025] P3Nav：集成感知、规划和预测的体现导航统一框架 [ 论文 ]
[2025] 从所见到未见：使用基础模型重写观察-指令以增强视觉-语言导航 [ 论文 ] [ GitHub]
[2025] COSMO：结合选择性记忆实现低成本视觉和语言导航 [ 论文 ]
[2025] ForesightNav：学习场景想象以实现高效探索 [ 论文 ] [ GitHub]
[2025] NavDP：利用特权信息引导学习模拟到现实的导航扩散策略 [ 论文 ]
[2025] VISTA：视觉和语言导航的生成视觉想象 [ 论文 ]
[2025] Dynam3D：动态分层 3D 令牌赋能 VLM 实现视觉和语言导航 [ 论文 ] [ GitHub]
[2025] Aux-Think：探索数据高效视觉语言导航的推理策略 [ 论文 ]

2024 😄

[2024] E2Map：基于语言模型的自反思机器人导航体验与情感地图 [论文] [GitHub]
[2024] 移动机器人对大规模室内环境的自主探索和语义更新 [论文] [GitHub]
[2024] 通过像素引导导航技能连接零样本目标导航和基础模型 [论文] [GitHub]
[2024] InstructNav：未探索环境中通用指令导航的零样本系统 [论文] [GitHub]
[2024] NaVILA：用于导航的腿式机器人视觉 - 语言 - 行动模型[论文] [GitHub]
[2024] ReMEmbR：用于机器人导航的长视界时空记忆构建与推理 [[论文] [GitHub]
[2024] Aim My Robot：对任何物体的精准局部导航 [论文]
[2024] 标签地图：基于文本的地图用于空间推理和导航与大型语言模型 [论文] [项目页面]
[2024] MapGPT：用于视觉 - 语言导航的基于地图引导的提示与自适应路径规划 [论文] [GitHub]
[2024] CANVAS：用于直观人机交互的常识感知导航系统 [论文] [GitHub]
[2024] VLFM：用于零样本语义导航的视觉 - 语言前沿地图 [论文] [GitHub]
[2024] 注意错误！检测和定位视觉 - 语言导航中的指令错误 [论文] [GitHub]
[2024] 从想象中规划：用于视觉 - 语言导航的情景模拟和情景记忆 [论文]
[2024] MC-GPT：通过记忆地图和推理链增强的视觉 - 语言导航 [论文]
[2024] 持续的视觉 - 语言导航 [论文]
[2024] Open-Nav：使用开源大型语言模型在连续环境中探索零样本视觉 - 语言导航 [论文]
[2024] 查找一切：多目标搜索的通用视觉语言模型方法 [论文] [GitHub]
[2024] NavGPT：在视觉 - 语言导航中使用大型语言模型进行显式推理 [论文] [GitHub]
[2024] NavGPT-2：释放大型视觉 - 语言模型的导航推理能力 [论文] [GitHub]
[2024] 带有神经辐射表示的前瞻探索用于连续视觉 - 语言导航 [论文] [GitHub]
[2024] 通过 3D 特征场实现视觉 - 语言导航的仿真到现实转移 [论文] [GitHub]
[2024] LangNav：将语言作为导航的感知表示 [论文] [GitHub]
[2024] 使用大型语言模型模块化构建协作具身智能体 [论文] [GitHub]
[2024] Navid：基于视频的 VLM 规划视觉和语言导航的下一步 [ 论文 ]
[2024] The One RING：机器人室内导航通才 [ 论文 ]
[2024] Mobility VLA：基于长上下文 VLM 和拓扑图的多模态指令导航 [ 论文 ]

2023 😲

[2023] 通过像素引导导航技能连接零样本对象导航和基础模型 [ 论文 ]
[2023] 视觉目标导航的前沿语义探索 [论文] [GitHub]
[2023] GrASPE：基于图形的多模态融合，用于户外环境中的机器人导航 [论文]
[2023] LANA：用于指令跟踪和生成的语言导航器 [论文] [GitHub]
[2023] Dreamwalker: 持续视觉语言导航的心理规划 [论文] [GitHub]
[2023] A2Nav：利用基础模型的视觉和语言能力实现动作感知零样本机器人导航 [论文]
[2023] 基于语义前沿的无训练具体化对象目标导航 [论文]

二、🔄 英文原版

2025 🐻

[2025] 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning [ 论文] [ 项目 ]
[2025] EfficientEQA: An Efficient Approach for Open Vocabulary Embodied Question Answering [ 论文 ]
[2025] Learned Perceptive Forward Dynamics Model for Safe and Platform-aware Robotic Navigation [paper] [project]
[2025] Semantic Mapping in Indoor Embodied AI - A Comprehensive Survey and Future Directions [paper]
[2025] VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning [paper]
[2025] TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation [paper]
[2025] VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion [paper]
[2025] NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [paper]
[2025] MapNav: A Novel Memory Representation via Annotated Semantic Maps for VLM-based Vision-and-Language Navigation [paper]
[2025] OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation [paper]
[2025] Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [paper]
[2025] WMNav: Integrating Vision-Language Models into World Models for Object Goal Navigation [paper] [project]
[2025] Dynamic Path Navigation for Motion Agents with LLM Reasoning [paper]
[2025] SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation [paper]
[2025] Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments [paper]
[2025] UniGoal: Towards Universal Zero-shot Goal-oriented Navigation [paper] [project]
[2025] PanoGen++: Domain-Adapted Text-Guided Panoramic Environment Generation for Vision-and-Language Navigation [paper]
[2025] Do Visual Imaginations Improve Vision-and-Language Navigation Agents? [paper] [project]
[2025] HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard [paper] [project]
[2025] FlexVLN: Flexible Adaptation for Diverse Vision-and-Language Navigation Tasks [paper]
[2025] P3Nav: A Unified Framework for Embodied Navigation Integrating Perception, Planning, and Prediction [paper]
[2025] Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [paper] [project]
[2025] COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation [paper]
[2025] ForesightNav: Learning Scene Imagination for Efficient Exploration [paper] [project]
[2025] CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [paper] [project]
[2025] NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance [paper]
[2025] VISTA: Generative Visual Imagination for Vision-and-Language Navigation [paper]
[2025] Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation [paper] [project]
[2025] Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation [paper]

2024 🐵

[2024] [RSS 24] Navid: Video-based vlm plans the next step for vision-and-language navigation [paper]
[2024] [RSS 24] NaVILA: Legged Robot Vision-Language-Action Model for Navigation [paper]
[2024] The One RING: a Robotic Indoor Navigation Generalist [paper]
[2024] Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [paper]
E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models [Paper][GitHub]
Autonomous Exploration and Semantic Updating of Large-Scale Indoor Environments with Mobile Robots [Paper][GitHub]
Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill [Paper][GitHub]
InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [Paper][GitHub]
NaVILA: Legged Robot Vision-Language-Action Model for Navigation [Paper][GitHub]
ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation [Paper][GitHub]
Aim My Robot: Precision Local Navigation to Any Object [Paper]
Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [Paper][Project Page]
Adaptive Zone-aware Hierarchical Planner for Vision-Language Navigation [Paper][GitHub]
MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation [Paper][GitHub]
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction [Paper][GitHub]
VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation [Paper][GitHub]
Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [Paper][GitHub]
Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation [Paper]
MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains [Paper]
Continual Vision-and-Language Navigation [Paper]
Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs [Paper]
Find Everything: A General Vision Language Model Approach to Multi-Object Search [Paper][GitHub]
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models [Paper][GitHub]
NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models [Paper][GitHub]
Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation [Paper][GitHub]
Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation [Paper][GitHub]
LangNav: Language as a Perceptual Representation for Navigation [Paper][GitHub]
Building Cooperative Embodied Agents Modularly with Large Language Models [Paper][GitHub]

2023 🦆

[2023] Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill [paper]
[2023] Frontier semantic exploration for visual target navigation [论文] [GitHub]
[2023] GrASPE: Graph based Multimodal Fusion for Robot Navigation in Outdoor Environments [论文]
[2023] LANA: A Language-Capable Navigator for Instruction Following and Generation [论文] [GitHub]
[2023] Dreamwalker: Mental planning for continuous vision-language navigation [论文] [GitHub]
[2023] A2Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting Vision-and-Language Ability of Foundation Models [论文]
[2023] How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers [论文]

分享完成～

【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation

优质文章学习记录

一、🏠 中文标题版

2025 😆

2024 😄

2023 😲

二、🔄 英文原版

2025 🐻

2024 🐵

2023 🦆

Read more

Flutter 组件 sse_stream 的适配鸿蒙Harmony 深度进阶 - 驾驭高并发 Server-Sent Events 背压处理、实现鸿蒙端工业级 AI 响应流与长效链路治理方案

LangChain实战：工具调用+结构化输出，让AI从“聊天“变“干活“

AI入门系列：AI入门者的困惑：常见术语解释与误区澄清

【高质量】10分钟复现Llama 3-ModelArts适配：开源大模型华为云落地全流程（含实测对比）

一、🏠 中文标题版

2025 😆

2024 😄

2023 😲

二、🔄 英文原版

2025 🐻

2024 🐵

2023 🦆

Read more

Flutter 组件 sse_stream 的适配 鸿蒙Harmony 深度进阶 - 驾驭高并发 Server-Sent Events 背压处理、实现鸿蒙端工业级 AI 响应流与长效链路治理方案

LangChain实战：工具调用+结构化输出，让AI从“聊天“变“干活“

AI入门系列：AI入门者的困惑：常见术语解释与误区澄清

【高质量】10分钟复现Llama 3-ModelArts适配：开源大模型华为云落地全流程（含实测对比）

Flutter 组件 sse_stream 的适配鸿蒙Harmony 深度进阶 - 驾驭高并发 Server-Sent Events 背压处理、实现鸿蒙端工业级 AI 响应流与长效链路治理方案