【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation

【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation

本文汇总了具身导航的论文,供大家参考学习,涵盖2026、2025、2024、2023等

覆盖的会议和期刊:CVPR、IROS、ICRA、RSS、arXiv等等

论文和方法会持续更新的~

一、🏠 中文标题版

2026 

  • [2026] SeqWalker:基于分层规划的时序视野视觉语言导航方法 [ 论文 ] [ GitHub ]  
  • [2026] UrbanNav:从网络规模人类轨迹中学习语言引导的城市导航方法 [ 论文 ] [ GitHub
  • [2026] VLN-MME:面向语言引导视觉导航智能体的多模态大语言模型诊断基准 [ 论文 ] [ GitHub
  • [2026] ASCENT: 实现楼层感知的零样本物体目标导航  [ 论文] [ GitHub ]

2025 😆

  • [2025] ETP-R1:面向连续环境VLN的进化拓扑规划与强化微调方法 [ 论文 ] [ GitHub ]
  • [2025] NaviTrace:评估视觉语言模型在真实世界场景中的导航能力 [ 论文 ] [ GitHub ]
  • [2025] AstraNav-World:面向具身导航的物理一致性世界模型 [ 论文 ] [ GitHub ]
  • [2025] OneMap:面向零样本多目标导航的实时开放词汇建图方法 [ 论文 ] [ GitHub ]
  • [2025] VLNVerse:面向视觉语言导航的通用化具身真实仿真与评估基准论文 ] [ GitHub ]
  • [2025] Nav-R2:面向开放词汇目标导航的双关系推理框架 [ 论文 ] [ GitHub ]
  • [2025] DualVLN:面向泛化视觉语言导航的双系统基础模型论文 ] [ GitHub ]
  • [2025] SeeNav-Agent:基于视觉提示与步级策略优化RL微调的VLN [ 论文 ] [ GitHub ]
  • [2025] NeuPAN:基于端到端模型化学习的机器人直接点位导航方法 [ 论文 ] [ GitHub ]
  • [2025] i2Nav-Robot:面向多传感器融合导航与建图的大规模室内外机器人数据集 [ 论文 ] [ GitHub ]
  • [2025] CE-Nav:基于流引导强化学习的跨实体局部导航优化 [ 论文 ] [ GitHub ]
  • [2025] VLN-R1: 使用大型视觉语言模型 LVLM,结合微调和强化训练,实现连续环境导航 [ 论文 ] [ GitHub ]
  • [2025] StreamVLN:  连续导航,通过在线、多轮对话的方式,输入连续视频,输出动作序列 [ 论文 ] [ GitHub ]
  • [2025] REGNav:“先学房间风格,再学导航决策”的分层思路,解决跨房间导航的视觉关联难题 [ 论文 ] [ GitHub ]
  • [2025] ForesightNav:基于场景想象的探索策略,用于机器人在未知环境中高效导航 [ 论文 ] [ GitHub ]
  • [2025] DualMap:在线开放词汇制图系统,使用自然语言理解和导航动态 3D 环境 [ 论文 ] [ GitHub ]
  • [2025] WMNav:将视觉语言模型集成到世界模型中以实现对象目标导航 [ 论文 ] [ 项目 ] [ GitHub ]
  • [2025] UniGoal:迈向通用零样本目标导向导航 [ 论文 ] [ 项目 ] [ GitHub ]
  • [2025] CityNavAgent:具有分层语义规划和全局记忆的空中视觉和语言导航 [ 论文 ] [ GitHub ]
  • [2025] VL-Nav:基于空间推理的实时视觉语言导航 [ 论文 ]
  • [2025] HA-VLN:具有动态多人交互、真实世界验证和开放排行榜的离散-连续环境中人机感知导航基准 [ 论文 ] [ 项目 ]  [ GitHub ]
  • [2025] FlexVLN:灵活适应多样化视觉和语言导航任务 [ 论文 ]
  • [2025] 3D-Mem:用于具身探索和推理的 3D 场景记忆 [ 论文] [ 项目 ] [ GitHub ]
  • [2025] EfficientEQA:一种高效的开放词汇具体化问答方法 [ 论文
  • [2025] 用于安全和平台感知机器人导航的学习感知前向动力学模型 [ 论文 ] [ GitHub]
  • [2025] 室内体现人工智能中的语义映射——全面综述及未来方向 [ 论文 ]
  • [2025] TRAVEL:用于视觉和语言导航的免训练检索与对齐 [ 论文 ]
  • [2025] VR-Robo:用于视觉机器人导航和运动的真实到模拟到真实的框架 [ 论文 ]
  • [2025] NavigateDiff:视觉预测器是零样本导航助手 [ 论文 ]
  • [2025] MapNav:一种通过带注释的语义图实现的新型记忆表征,用于基于 VLM 的视觉和语言导航 [ 论文 ]
  • [2025] OpenFly:用于空中视觉语言导航的多功能工具链和大规模基准测试 [ 论文 ]
  • [2025] 连续环境中的地面视点视觉和语言导航 [ 论文 ]
  • [2025] 基于 LLM 推理的运动代理动态路径导航 [ 论文 ]
  • [2025] SmartWay:增强型航点预测和回溯,用于零样本视觉和语言导航 [ 论文 ]
  • [2025] Vi-LAD:视觉语言注意力蒸馏在动态环境中实现社交感知机器人导航 [ 论文 ]
  • [2025] PanoGen++:面向视觉和语言导航的领域自适应文本引导全景环境生成 [ 论文 ]
  • [2025] 视觉想象能改善视觉和语言导航代理吗?[ 论文 ] [ 项目 ]
  • [2025] P3Nav:集成感知、规划和预测的体现导航统一框架 [ 论文 ]
  • [2025] 从所见到未见:使用基础模型重写观察-指令以增强视觉-语言导航 [ 论文 ] [ GitHub]
  • [2025] COSMO:结合选择性记忆实现低成本视觉和语言导航 [ 论文 ]
  • [2025] ForesightNav:学习场景想象以实现高效探索 [ 论文 ] [ GitHub]
  • [2025] NavDP:利用特权信息引导学习模拟到现实的导航扩散策略 [ 论文 ]
  • [2025] VISTA:视觉和语言导航的生成视觉想象 [ 论文 ]
  • [2025] Dynam3D:动态分层 3D 令牌赋能 VLM 实现视觉和语言导航 [ 论文 ] [ GitHub]
  • [2025] Aux-Think:探索数据高效视觉语言导航的推理策略 [ 论文 ]

2024 😄

  • [2024] E2Map:基于语言模型的自反思机器人导航体验与情感地图 [论文]  [GitHub] 
  • [2024] 移动机器人对大规模室内环境的自主探索和语义更新  [论文]  [GitHub] 
  • [2024] 通过像素引导导航技能连接零样本目标导航和基础模型 [论文]  [GitHub] 
  • [2024] InstructNav:未探索环境中通用指令导航的零样本系统 [论文]  [GitHub] 
  • [2024] NaVILA:用于导航的腿式机器人视觉 - 语言 - 行动模型[论文]   [GitHub] 
  • [2024] ReMEmbR:用于机器人导航的长视界时空记忆构建与推理 [[论文]  [GitHub] 
  • [2024] Aim My Robot:对任何物体的精准局部导航 [论文] 
  • [2024] 标签地图:基于文本的地图用于空间推理和导航与大型语言模型 [论文]  [项目页面] 
  • [2024] MapGPT:用于视觉 - 语言导航的基于地图引导的提示与自适应路径规划 [论文]  [GitHub] 
  • [2024] CANVAS:用于直观人机交互的常识感知导航系统 [论文]  [GitHub] 
  • [2024] VLFM:用于零样本语义导航的视觉 - 语言前沿地图 [论文]  [GitHub] 
  • [2024] 注意错误!检测和定位视觉 - 语言导航中的指令错误 [论文]  [GitHub] 
  • [2024] 从想象中规划:用于视觉 - 语言导航的情景模拟和情景记忆 [论文] 
  • [2024] MC-GPT:通过记忆地图和推理链增强的视觉 - 语言导航 [论文] 
  • [2024] 持续的视觉 - 语言导航 [论文] 
  • [2024] Open-Nav:使用开源大型语言模型在连续环境中探索零样本视觉 - 语言导航 [论文] 
  • [2024] 查找一切:多目标搜索的通用视觉语言模型方法 [论文]  [GitHub] 
  • [2024] NavGPT:在视觉 - 语言导航中使用大型语言模型进行显式推理 [论文]  [GitHub] 
  • [2024] NavGPT-2:释放大型视觉 - 语言模型的导航推理能力 [论文]  [GitHub] 
  • [2024] 带有神经辐射表示的前瞻探索用于连续视觉 - 语言导航 [论文]  [GitHub] 
  • [2024] 通过 3D 特征场实现视觉 - 语言导航的仿真到现实转移 [论文]  [GitHub] 
  • [2024] LangNav:将语言作为导航的感知表示 [论文]  [GitHub] 
  • [2024] 使用大型语言模型模块化构建协作具身智能体 [论文]  [GitHub] 
  • [2024] Navid:基于视频的 VLM 规划视觉和语言导航的下一步 [ 论文 ]
  • [2024] The One RING:机器人室内导航通才 [ 论文 ]
  • [2024] Mobility VLA:基于长上下文 VLM 和拓扑图的多模态指令导航 [ 论文 ]

2023 😲

  • [2023] 通过像素引导导航技能连接零样本对象导航和基础模型 [ 论文 ]
  • [2023] 视觉目标导航的前沿语义探索  [论文]  [GitHub] 
  • [2023] GrASPE:基于图形的多模态融合,用于户外环境中的机器人导航  [论文] 
  • [2023] LANA:用于指令跟踪和生成的语言导航器  [论文]  [GitHub] 
  • [2023] Dreamwalker: 持续视觉语言导航的心理规划  [论文]  [GitHub] 
  • [2023] A2Nav:利用基础模型的视觉和语言能力实现动作感知零样本机器人导航  [论文] 
  • [2023] 基于语义前沿的无训练具体化对象目标导航  [论文] 

二、🔄 英文原版

2025 🐻

  • [2025] 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning [ 论文] [ 项目 ]
  • [2025] EfficientEQA: An Efficient Approach for Open Vocabulary Embodied Question Answering [ 论文
  • [2025] Learned Perceptive Forward Dynamics Model for Safe and Platform-aware Robotic Navigation [paper] [project]
  • [2025] Semantic Mapping in Indoor Embodied AI - A Comprehensive Survey and Future Directions [paper]
  • [2025] VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning [paper]
  • [2025] TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation [paper]
  • [2025] VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion [paper]
  • [2025] NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [paper]
  • [2025] MapNav: A Novel Memory Representation via Annotated Semantic Maps for VLM-based Vision-and-Language Navigation [paper]
  • [2025] OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation [paper]
  • [2025] Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [paper]
  • [2025] WMNav: Integrating Vision-Language Models into World Models for Object Goal Navigation [paper] [project]
  • [2025] Dynamic Path Navigation for Motion Agents with LLM Reasoning [paper]
  • [2025] SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation [paper]
  • [2025] Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments [paper]
  • [2025] UniGoal: Towards Universal Zero-shot Goal-oriented Navigation [paper] [project]
  • [2025] PanoGen++: Domain-Adapted Text-Guided Panoramic Environment Generation for Vision-and-Language Navigation [paper]
  • [2025] Do Visual Imaginations Improve Vision-and-Language Navigation Agents? [paper] [project]
  • [2025] HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard [paper] [project]
  • [2025] FlexVLN: Flexible Adaptation for Diverse Vision-and-Language Navigation Tasks [paper]
  • [2025] P3Nav: A Unified Framework for Embodied Navigation Integrating Perception, Planning, and Prediction [paper]
  • [2025] Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [paper] [project]
  • [2025] COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation [paper]
  • [2025] ForesightNav: Learning Scene Imagination for Efficient Exploration [paper] [project]
  • [2025] CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [paper] [project]
  • [2025] NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance [paper]
  • [2025] VISTA: Generative Visual Imagination for Vision-and-Language Navigation [paper]
  • [2025] Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation [paper] [project]
  • [2025] Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation [paper]

2024 🐵

  • [2024] [RSS 24] Navid: Video-based vlm plans the next step for vision-and-language navigation [paper]
  • [2024] [RSS 24] NaVILA: Legged Robot Vision-Language-Action Model for Navigation [paper]
  • [2024] The One RING: a Robotic Indoor Navigation Generalist [paper]
  • [2024] Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [paper]
  • E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models [Paper][GitHub]
  • Autonomous Exploration and Semantic Updating of Large-Scale Indoor Environments with Mobile Robots [Paper][GitHub]
  • Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill [Paper][GitHub]
  • InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [Paper][GitHub]
  • NaVILA: Legged Robot Vision-Language-Action Model for Navigation [Paper][GitHub]
  • ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation [Paper][GitHub]
  • Aim My Robot: Precision Local Navigation to Any Object [Paper]
  • Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [Paper][Project Page]
  • Adaptive Zone-aware Hierarchical Planner for Vision-Language Navigation [Paper][GitHub]
  • MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation [Paper][GitHub]
  • CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction [Paper][GitHub]
  • VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation [Paper][GitHub]
  • Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [Paper][GitHub]
  • Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation [Paper]
  • MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains [Paper]
  • Continual Vision-and-Language Navigation [Paper]
  • Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs [Paper]
  • Find Everything: A General Vision Language Model Approach to Multi-Object Search [Paper][GitHub]
  • NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models [Paper][GitHub]
  • NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models [Paper][GitHub]
  • Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation [Paper][GitHub]
  • Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation [Paper][GitHub]
  • LangNav: Language as a Perceptual Representation for Navigation [Paper][GitHub]
  • Building Cooperative Embodied Agents Modularly with Large Language Models [Paper][GitHub]

2023 🦆

  • [2023] Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill [paper]
  • [2023] Frontier semantic exploration for visual target navigation  [论文]  [GitHub] 
  • [2023] GrASPE: Graph based Multimodal Fusion for Robot Navigation in Outdoor Environment [论文] 
  • [2023] LANA: A Language-Capable Navigator for Instruction Following and Generatio [论文]  [GitHub] 
  • [2023] Dreamwalker: Mental planning for continuous vision-language navigation  [论文]  [GitHub] 
  • [2023] A2Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting Vision-and-Language Ability of Foundation Models  [论文] 
  • [2023] How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers  [论文] 

分享完成~

Read more

Flutter 组件 sse_stream 的适配 鸿蒙Harmony 深度进阶 - 驾驭高并发 Server-Sent Events 背压处理、实现鸿蒙端工业级 AI 响应流与长效链路治理方案

Flutter 组件 sse_stream 的适配 鸿蒙Harmony 深度进阶 - 驾驭高并发 Server-Sent Events 背压处理、实现鸿蒙端工业级 AI 响应流与长效链路治理方案

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 sse_stream 的适配 鸿蒙Harmony 深度进阶 - 驾驭高并发 Server-Sent Events 背压处理、实现鸿蒙端工业级 AI 响应流与长效链路治理方案 前言 在前文我们初步探讨了 sse_stream 在鸿蒙(OpenHarmony)端的连接实战。但在面临真正的工业级挑战——例如在大模型 AI(如 DeepSeek)生成每秒数百字的超高频反馈,或者是在证券系统中上千个标的实时价格跳动时,简单的“连接并监听”会导致鸿蒙 UI 线程由于疯狂的事件回调而瞬间进入 ANR(应用无响应)黑洞。 如何处理流式数据中的“背压(Backpressure)”?如何在鸿蒙有限的移动端内存中实现高效的报文分拣? 本文将作为 sse_stream 适配的进阶篇,

LangChain实战:工具调用+结构化输出,让AI从“聊天“变“干活“

LangChain实战:工具调用+结构化输出,让AI从“聊天“变“干活“

文章目录 * 工具调用(Tool Calling) * 1.Tool创建的三种方式 * 1.1. **直接用 `@tool` 装饰函数** * 1.2. **用 `@tool` + 自定义参数结构(Pydantic)** * 1.3. **继承 `BaseTool` 写类** * 2. 本地自定义工具 * 2.1 定义工具 * 2.2 绑定工具到模型 * 2.3 工具调用流程 * 2.4 AI 响应结构解析 * 3. 第三方工具集成(Tavily搜索([https://www.tavily.com/](https://www.tavily.com/))) * 3.1

AI入门系列:AI入门者的困惑:常见术语解释与误区澄清

AI入门系列:AI入门者的困惑:常见术语解释与误区澄清

引言 人工智能领域充满了令人困惑的专业术语和概念误区。对于刚接触AI的新手而言,机器学习、深度学习、神经网络这些名词常常让人一头雾水。很多初学者会将AI简单地等同于机器人,或者误以为AI已经具备人类水平的思维能力。实际上,AI是一个包含多个子领域的广阔学科,每个术语都有其特定的含义和应用范围。理解这些基础概念的区别,避免常见的认知误区,是踏入AI世界的第一步。本文将系统梳理AI领域的核心术语,澄清普遍存在的误解,帮助初学者建立正确的认知框架,为后续的深入学习打下坚实基础。 AI到底是什么?从科幻到现实的转变 很多人一听到AI,就想到《终结者》里的天网或者《黑客帝国》里的矩阵。但实际上,AI远比这些科幻场景要"接地气"得多。 想象一下,当你对手机说"嘿,Siri,明天天气怎么样?",手机能够理解你的话,查找天气信息,并用语音回答你。这就是AI在工作,它包含了语音识别、自然语言处理、信息检索等多个技术。 AI的本质是让机器完成那些过去只有人类才能完成的任务。但这并不意味着机器要变得像人一样思考,而是让机器在特定任务上表现得像人一样聪明。 误区澄清:

【高质量】10分钟复现Llama 3-ModelArts适配:开源大模型华为云落地全流程(含实测对比)

【高质量】10分钟复现Llama 3-ModelArts适配:开源大模型华为云落地全流程(含实测对比)

【高质量】10分钟复现Llama 3-ModelArts适配:开源大模型华为云落地全流程(含实测对比) 想把Llama 3部署到华为云却怕踩坑?“开源仓适配脚本不会改”“ModelArts环境和模型不兼容”“跑出来效果不如本地”……今天这篇文从开发者视角出发,避开官方文档的“专业壁垒”,用“翻译成人话”的步骤带你复现Llama 3在ModelArts DevContainer的适配效果,附本地VS云环境实测对比,小白也能直接抄作业! 一、先澄清误解:开源大模型适配云环境,不是“复制粘贴那么简单” 很多开发者觉得“开源模型适配云环境”就是把本地代码搬到云上,其实这3个误解最容易踩坑: * 误解1:“开源仓的代码能直接跑”→ 错!本地依赖和云环境版本可能冲突,比如Llama 3依赖的Transformers版本,本地是4.38,ModelArts默认是4.35,直接跑必报错; * 误解2:“云环境算力越强越好”→ 没必要!7B参数的Llama 3,ModelArts 2核8G CPU就能跑(就是慢一点),新手不用上来就选昂贵的NPU;