近半年,无人机 + 大模型的 8 大 “出圈” 硬核研究

近半年,无人机 + 大模型的 8 大 “出圈” 硬核研究

「近半年最热的方向...」

目录

VLA-AN: An Efficient and Onboard Vision Language-ActionFramework for AerialNavigation in Complex Environments

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments

MM-UAVBENCH: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios

Chat with UAV – Human-UAV Interaction Based on Large Language Models

AdaptFly: Prompt-Guided Adaptation of Foundation Models for Low-Altitude UAV Networks

CoDrone: Autonomous Drone Navigation Assisted by Edge and Cloud Foundation Models

总结


最近刷无人机相关论文,会有个很明显的变化:越来越多工作开始把“大模型”当成标配往系统里塞。

以前大家更习惯卷感知、卷规划、卷控制,现在则多了一条新主线:

让无人机听得懂人话、看得懂开放世界、还能在复杂场景里做更聪明的决策。

于是“大模型 + 无人机”这条线一下子热起来,paper 也肉眼可见地密集。

所以这期我们干脆做一个大模型无人机盘点,把近期有代表性的研究集中列出来,给大家一张“现在到底在做什么”的地图,方便各位读者按方向继续深挖。

这次盘点里选到的几篇论文,主要是为了把“大模型怎么和无人机结合”这件事讲清楚,所以我们更关注它们展示的思路和系统做法,而不是追求把所有相关工作一网打尽。受限于篇幅和检索范围,这份清单难免有遗漏,也不代表我们认为“没被选到的就不重要”,更不等同于任何形式的排名或好坏评价。如果你觉得某些工作同样值得放进来,欢迎在评论区补充,我们也会把高质量补充整理成后续更新版本。

VLA-AN: An Efficient and Onboard Vision Language-ActionFramework for AerialNavigation in Complex Environments

图片

机构:浙江大学,微分智飞

主要内容:这篇工作提出 VLA-AN,把“视觉-语言-动作(VLA)”这套大模型能力,真正塞进一台资源紧张的无人机里,让它在复杂环境里闭环自主导航,而不是停留在“能看懂、能说对,但飞不稳/跑不动”的阶段。

它的核心思路是:大模型负责理解与推理(看场景、对齐语言、做长期决策),但动作输出不完全交给生成式策略,而是加了一套轻量实时的动作模块,并用几何层面的安全校正把“可能很聪明但偶尔乱来”的生成动作拉回可执行、可避障的范围。

为了让大模型不被真实飞行数据稀缺卡死,他们还用 3D Gaussian Splatting(3D-GS)构建高保真数据来补齐“仿真/数据域差”,再用一个三阶段渐进训练,从“看懂场景”到“掌握飞行基础技能”再到“长时序复杂导航”,一步步把能力堆上去。最终在机载算力受限条件下,仍能做到 2–3 Hz 的实时推理,把 VLA 做成可落地的航行系统。

链接:https://arxiv.org/pdf/2512.15258

拓展阅读:成功率98.1%!浙大高飞团队最新:VLA-AN构建“数据+安全+算力”闭环,实现真·实时导航

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

图片

机构:南方科技大学(周博宇团队)

主要内容:这篇 AirHunt 解决的是“大模型无人机落地”里最典型、也最致命的矛盾:VLM 很慢,飞行规划很快。AirHunt 的核心突破是把 VLM 的角色重新定位为高层语义生成器,而不是实时控制器,并用一个能持续读写的 3D 语义-几何记忆(3D value map)把“慢推理”变成“可持续利用的语义势场”。具体做法是一个双通路异步架构:

  • 推理通路(低频):VLM 根据语言指令提取语义先验,异步写入并更新 3D value map;
  • 规划通路(高频):路径规划器以高频持续运行,实时从这个 value map “取语义”,生成连续轨迹。

这样两边都能按各自的天然频率工作,不会互相卡住,还能做到“飞行不中断、语义引导会随运动逐步演化”。为了进一步省掉不必要的 VLM 调用,AirHunt 还做了一个主动双任务推理模块,利用几何与语义的冗余关系进行选择性查询;同时在规划层引入语义-几何一致的统一优化,在不同环境异质性下动态平衡“语义优先级”和“运动效率”。

链接:https://arxiv.org/pdf/2601.12742

拓展阅读南科大周博宇团队新突破:AirHunt 实现无人机连续语义导航,飞行效率提升59%!

FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments

图片

机构:香港科技大学,南方科技大学

主要内容

在野外让无人机做 3D 扫描,真正难的不是“飞起来”,而是“飞得像个懂事的人”。你说一句“扫那座山谷里的城堡”,人类飞手会立刻找对目标、脑子里补出它没被看到的背面轮廓,然后边飞边绕开树和障碍,把该扫的地方一遍到位。现有系统往往做不到这么省心:要么依赖很重的人工先验(例如框 3D 范围、手工分割、预设飞行样式),要么在复杂几何和遮挡面前效率和完整性一起掉线。

香港科技大学沈劭劼团队、南方科技大学周博宇团队、中山大学等机构联合发布FlyCo:把基础模型(Foundation Models)的“常识”和“语义理解”真正接进无人机系统里,形成一个感知-预测-规划的闭环,让无人机从“按模板飞”变成“边理解边推演边规划”,实现仅靠文本 + 少量 2D 标注就能在未知开放环境里完成目标结构的自动三维扫描。

链接:https://arxiv.org/pdf/2601.07558

拓展阅读沈劭劼&周博宇等团队|仅需文本+少量2D标注!实现未知开放环境下的自动三维扫描

MM-UAVBENCH: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

图片

机构:清华大学,南开大学

主要内容:这篇 MM-UAVBENCH 也是“基准/评测”路线,但它盯得更准:不是泛泛测大模型会不会答题,而是专门针对低空无人机视角的那堆麻烦事,系统性评估多模态大模型(MLLM)的“通用智能”到底够不够用。

现有 MLLM benchmark 很少覆盖低空场景的独特视觉挑战(俯视、小目标、视角变化、遮挡密集、尺度极不稳定),而 UAV 相关评测又常常只测某个单点任务(定位/导航),缺少一个能同时覆盖“看懂 + 想明白 + 做决策”的统一框架。于是他们做了一个三维度评测体系,把 MLLM 在低空 UAV 场景里的能力拆成 感知(Perception)- 认知(Cognition)- 规划(Planning) 三大块,并设计了 19 个子任务、5700+ 人工标注问题,全部来自真实无人机数据(公开数据集)。

这里的大模型不是直接开飞控,而是作为空中视角的通用理解与决策引擎,需要从真实航拍图中完成理解、推理、到任务规划的链路。评测结果显示:当前 16 个开源/闭源 MLLM 在低空复杂视觉与认知需求上依然吃力,作者还点名了两类关键瓶颈:空间偏置(spatial bias)和多视角/多视图理解能力不足,这两点会直接卡住 MLLM 在真实 UAV 场景里的可用性。

链接:https://arxiv.org/pdf/2512.23219v1

UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios

图片

机构:哈利法科学技术大学

主要内容:这篇 UAVBench 走的不是“再提一个更强的飞行策略”,而是先给“大模型无人机”补上一把统一的标尺。现在越来越多无人机系统开始把 LLM 用在任务规划、感知解释和决策上,但大家评测各用各的场景、各写各的任务描述,缺少“物理上站得住”的标准化基准,导致很难系统比较模型到底会不会“懂飞行”。

于是他们做了两件事:一是用taxonomy 引导的提示词让 LLM 批量生成 5 万条可验证的飞行场景,并通过多阶段安全校验把不合理、不安全、不物理的场景筛掉;二是把每个场景都编码成统一的 JSON 结构,里面包含任务目标、机型配置、环境条件,以及量化的风险标签。基于这套场景库,作者又扩展了 UAVBench_MCQ,把场景变成 5 万道多选题,覆盖从空气动力学、导航到多机协同、混合推理,甚至伦理相关的推理风格,用“可解释、可机检”的方式去测 LLM 的 UAV 专用推理能力。最后他们对 32 个主流大模型做了评测,整体结论是:在感知与策略推理上表现不错,但在伦理约束和资源受限条件下的取舍决策上仍然容易翻车。

链接:https://arxiv.org/pdf/2511.11252

Chat with UAV – Human-UAV Interaction Based on Large Language Models

图片

机构:浙江工商大学,英国萨塞克斯大学工程与信息学院

主要内容:这篇工作瞄准的是“让普通用户用自然语言就能指挥无人机”这件事。作者认为未来的人机交互会从工程师预设的固定流程,走向用户驱动的个性化任务设计,但现实卡点也很直白:用户说的是自然语言,无人机懂的是动作与约束,两者缺一套“共同语言”,所以复杂任务经常落到“要么说不清,要么执行跑偏”。

他们的解法是把大模型“拆开用”,提出一个双智能体(dual-agent)HUI 框架:

  • 一个任务规划智能体 专门负责“理解用户意图 + 生成可执行的任务步骤/子任务顺序”;
  • 一个执行智能体 专门负责“把步骤落到飞行行为上”,在执行过程中结合状态反馈去处理混合任务(比如既要巡航拍照又要避障、再返航)。

关键点不在“换个更大模型”,而在用不同的 Prompt Engineering 把理解/规划/执行分工隔离,避免一个 LLM 又要想全局又要管细节,结果在复杂场景里容易卡在“混合任务规划与执行”上。为了验证效果,作者还搭了一个覆盖四类典型无人机应用的任务库,用三项指标量化表现,并对不同 LLM 作为控制核心的表现做了对比;用户研究显示这种分工能让交互更顺、执行更灵活,更贴近“用户想要的那种无人机”。

链接:https://arxiv.org/pdf/2512.08145

AdaptFly: Prompt-Guided Adaptation of Foundation Models for Low-Altitude UAV Networks

图片

机构:华南理工大学,桂林电子科技大学

主要内容:这篇 AdaptFly 走的是“低空无人机网络”的务实路线:不是让无人机更会聊天、更会规划,而是先把一个更底层的能力做稳,语义分割。它把“自适应”从“改权重”改成“改提示(prompt)”,提出一个无权重更新(weight-free)、由 prompt 驱动的 TTA 框架。也就是:分割模型本体不动,靠提示去把模型在当前环境里“拨回正轨”。并且它专门考虑网络里异构无人机的现实,设计了两种互补模式:

  • 资源受限 UAV:不做优化,只做轻量 token prompt 检索,从一个共享的全局记忆里取回“在类似天气/光照/视角下有效的提示”;
  • 资源充足 UAV:用一种梯度无关的稀疏视觉 prompt 优化方法(CMA-ES 进化策略)在线搜索更合适的 prompt,但仍然不改模型权重。

系统还配了一个激活统计检测器,当检测到性能可能在掉(分布漂移信号)才触发适配;更关键的是它搞了一个跨 UAV 知识池,把各机学到的 prompt 经验汇总成“共享提示库”,让整个机群协作适配,而且带宽开销很小。整体看,这篇把“大模型”用在一个非常落地的方式上:模型不动,prompt 作为可交换、可共享的适配参数,让低空网络的感知鲁棒性变得可维护、可协作。

链接:https://arxiv.org/pdf/2511.11720

CoDrone: Autonomous Drone Navigation Assisted by Edge and Cloud Foundation Models

图片

机构:中山大学,鹏城实验室

主要内容:无人机机载算力有限,很多时候只能跑“瘦身版网络”,一进复杂环境就不够聪明;但把任务全扔到云端/边缘又会遇到网络延迟,决策变慢甚至失控,于是系统设计天然卡在“算力 vs 时延”的跷跷板上。CoDrone 提出一个 端-边-云协同(end-edge-cloud)的计算框架,目标是在不把无人机拖死的前提下,把 foundation model 的能力引进来,专门服务于无人机的巡航导航场景。

它把“大模型怎么用”拆成了几块非常具体的落点:

  • 机载端尽量轻:为了降低计算与传输开销,导航模型只用灰度图作为输入,先保证“能实时飞”。
  • 需要更强理解时再叫外援:当环境更复杂、需要更精细的几何感知时,系统会调用边缘端的基础模型 Depth Anything V2 做深度估计,把“重活”放到边缘算力上。
  • 把深度变成更易用的导航表示:他们提出一种一维占据栅格(1D occupancy grid)的导航方法,用更简单的表示承接深度信息,既提升理解的细粒度,又让表示更省、更适合导航决策。
  • 用 DRL 做调度与融合:核心还有一个 DRL 神经调度器,负责在不同网络条件、不同动态环境下,决定何时需要深度增强、如何把深度与导航动作决策融合起来,实现实时自适应。
  • VLM 做开放集推理的“交互层”:更进一步,它引入了一个 UAV 领域的视觉语言交互模块,把“云端 foundation model / VLM 的推理结果”对接到无人机可执行的低层飞行原语上,让系统在未知场景下具备更强的开放集推理与应对能力。

链接:https://arxiv.org/pdf/2512.19083

总结

无人机正在从“工程师预设的自动化设备”,走向“面向用户意图的开放式智能体”,而大模型是推动这件事的关键语言接口与认知引擎。

但真正决定能不能落地的,不是模型能答对多少题,而是系统能不能把大模型的能力变成可持续、可实时、可安全的飞行闭环。于是我们看到越来越多“正确的姿势”:用异步架构和语义记忆消化推理频率差,用结构化场景与基准把能力测准,用提示/轻量适配提升鲁棒性,用端-边-云协同把算力延迟的跷跷板压到可用范围,用双智能体或工具链把自然语言意图稳稳落到飞行原语。

下一阶段的竞争点也会更清晰:谁能在真实低空环境里长时间稳定运行,谁能把不确定性、资源约束与安全边界纳入决策,谁就更接近“把大模型真正装进无人机”这件事。

Read more

前端学习日记 - 前端函数防抖详解

前端学习日记 - 前端函数防抖详解

前端函数防抖详解 * 为什么使用防抖 * 函数防抖的应用场景 * 函数防抖原理与手写实现 * 原理 * 手写实现 * 使用 Lodash 的 \_.debounce * 完整示例:防抖搜索组件 * 结语 在现代 Web 应用中,函数防抖(debounce)是一种常见且高效的性能优化手段,用于限制高频事件触发下的函数调用次数,从而减少不必要的计算、网络请求或 DOM 操作。本文将从“为什么使用防抖”切入,介绍典型的应用场景,深入解析防抖原理,并给出从零实现到在实际项目中使用 Lodash 的完整代码示例,帮助你快速掌握前端防抖技术。 为什么使用防抖 函数防抖的核心思想是在连续触发的事件停止后,仅执行最后一次调用,以避免频繁触发带来的性能问题 ([MDN Web Docs][1])。 在不使用防抖的情况下,例如在 input 输入事件或 window.resize 事件中直接调用逻辑,页面可能会因短时间内大量调用而出现卡顿或请求风暴 ([GeeksforGeeks]

AI结对编程实录:人机协作的边界与可能

AI结对编程实录:人机协作的边界与可能

👋 大家好,欢迎来到我的技术博客! 📚 在这里,我会分享学习笔记、实战经验与技术思考,力求用简单的方式讲清楚复杂的问题。 🎯 本文将围绕人工智能这个话题展开,希望能为你带来一些启发或实用的参考。 🌱 无论你是刚入门的新手,还是正在进阶的开发者,希望你都能有所收获! 文章目录 * AI结对编程实录:人机协作的边界与可能 * 引言:当键盘有了“第二双手” * 第一章:从辅助驾驶到副驾驶 * 1.1 场景:批量数据处理的“第一次尝试” * 1.2 反思:AI真的“理解”了吗? * 第二章:复杂逻辑的重构与架构 * 2.1 场景:将“面条式代码”改为状态机 * 2.2 架构图示:状态流转 * 第三章:调试(Debugging)——人与AI的博弈 * 3.1 场景:棘手的异步竞态条件

OpenClaw 配置教程:在 macOS 上搭建 AI 助手并与飞书集成

摘要 本文记录了在 macOS 系统上安装和配置 OpenClaw 的完整过程,包括: * OpenClaw 的安装与初始化 * Moonshot Kimi API 的配置 * 飞书(Feishu)机器人的接入 * 常见问题与解决方案 目录 1. 什么是 OpenClaw? 2. 环境准备 3. 安装 OpenClaw 4. 配置 Moonshot Kimi API 5. 接入飞书机器人 6. 配置详解 7. 使用技巧 8. 总结 1. 什么是 OpenClaw? OpenClaw 是一个开源的 AI 助手框架,可以将大语言模型(如 Kimi、GPT、

保姆级教程:OpenClaw 本地 AI 助手安装、配置与钉钉接入全流程

保姆级教程:OpenClaw 本地 AI 助手安装、配置与钉钉接入全流程

文章目录 * 保姆级教程:OpenClaw 本地 AI 助手安装、配置与钉钉接入全流程 * 🌟 引言 * 第一步:环境准备 * 1. 安装 Node.js * 2. 安装 Git * 第二步:安装 OpenClaw * 方式一:使用 npm 全局安装(通用推荐) * 方式二:Windows 快捷安装脚本 * 第三步:首次运行与初始化配置 (Onboard) * 1. 环境依赖检查 * 2. 向导配置流程 * 3. 网关启动与测试 * 第四步:进阶玩法——将 OpenClaw 接入钉钉机器人 * 1. 创建钉钉企业内部应用 * 2. 通过 npm 安装钉钉插件 * 3. 测试通道通讯