基于改进YOLOv11n的无人机红外目标检测算法

基于改进YOLOv11n的无人机红外目标检测算法

导读:

面向无人机红外图像中目标尺度小、对比度低与边界模糊等问题,本文提出了一种基于YOLOv11n模型的多尺度注意力机制优化方法。首先,在引入小目标检测层的基础上,融合多分支与双向金字塔思想构建双向多分支辅助特征金字塔网络,通过可学习权重自适应融合各层特征,增强微小目标表征。其次,在检测头侧采用动态注意力检测头,从尺度、空间与通道三方面进行协同建模,提升关键区域聚焦与特征利用效率。最后,提出NWD-Inner-MPDIoU组合损失函数,协同提升低重叠、边界不清条件下的定位稳定性。在HIT-UAV红外小目标数据集上进行系统实验评估,结果表明:所提方法mAP50达92.8%,相比基线模型提升2.2%,且召回率与准确率分别提高1.6%和0.6%。同时,模型仅小幅增加复杂度,整体仍保持轻量化与可部署性。综上,本文方法在保证效率的同时有效提升了无人机红外目标的检测质量,为后续扩展研究提供了可靠的技术基础。

作者信息:

康泽韬董智红*王孜心:北京印刷学院信息工程学院,北京

论文详情

YOLOv11n的网络架构如图1所示,由骨干网络、颈部网络、检测头三部分组成。

针对红外无人机图像中目标尺度小、对比度低、边界模糊且在低重叠区域易出现回归梯度稀疏、致使YOLOv11n存在漏检与定位不稳的问题,本文提出如下改进创新:

(1) 新增P2小目标检测层,以更高分辨率捕获微小目标细节提升召回率;

(2) 在颈部构建双向多分支辅助特征金字塔网络(Bi-directional Multi-branch Auxiliary Feature Pyramid Network, BIMAFPN),实现多路径跨层与双向融合,强化浅层细节与高层语义的协同表征,提升复杂背景下的可分离性与鲁棒性;

(3) 提出NWD-Inner-MPDIoU (Normalized Wasserstein Distance-Inner Scaling-Minimum Point Distance Intersection over Union)组合损失函数,在低交并时提供连续且尺度稳健的几何度量,按重叠程度自适应缩放边界框并以最小点距离增强对位置与尺寸偏差的辨识,提高训练稳定性与收敛速度;

(4) 引入动态注意力检测头(Dynamic Head, DyHead),自适应重加权不同尺度、空间位置与通道信息,形成统一高效的检测头表示,在控制推理开销的同时降低漏检与误检。

改进后的网络架构如图2所示。

本文在原有多尺度检测头的基础上增加P2小目标检测层(特征图为160 × 160),本文参考并扩展多分支辅助特征金字塔的设计思路,构建由自顶向下与自底向上两路信息交互、并行多分支横向连接组成的BIMAFPN。网络结构如图3所示。

为应对红外无人机目标在低对比、尺度跨度大及轻微位移等条件下,检测头阶段易出现的“尺度选择不准、空间错位与通道利用不足”问题,本文在颈部输出之后引入动态注意力检测头DyHead。其整体结构如图4所示。

本文采用哈尔滨工业大学发布的HIT-UAV无人机红外目标检测数据集。

本文实验使用PyTorch框架,采用GPU加速完成。实验软硬件环境为:Ubuntu 22.04操作系统,32 GB内存,NVIDIA GeForce RTX 4090。软件配置为Python 3.10.15、PyTorch 2.3、CUDA 12.1与cuDNN 8.9.0。训练基本参数设置如下:总轮数300,批量大小16,初始学习率0.01。

为全面衡量模型的检测性能与计算代价,本文选取精准率(Precision, P)、召回率(Recall, R)、平均精度(mAP)、参数量(Params)和GFLOPs五项指标。

为直观评估各改进环节的贡献,按“P2 → BIMAFPN → NWD-Inner-MPDIoU → DyHead”的顺序逐步叠加,构建模型A、B、C、D,与基线YOLOv11n在相同设置下对比,结果如表1所示。

为进一步评估所提出方法,在HIT-UAV数据集上与主流目标检测算法进行了对比,结果如表2所示。

基于HIT-UAV数据集的对比与消融实验表明,该方案在精度与稳定性上均取得了较好效果:相较基线YOLOv11n,mAP50提升约2.2%,召回率提升约1.6%,准确率同步提高;参数量与计算量仅小幅增加,整体仍处于轻量级范畴,消融结果进一步验证了各模块的互补性。

尽管如此,方法在极端杂波背景、较强热噪声或剧烈运动模糊条件下仍有改进空间。后续工作仍可从两方面展开:其一,开展剪枝、量化与蒸馏以压缩模型、降低推理开销。其二,结合时间一致性与多模态信息以增强在复杂场景下的稳健性与泛化能力。综上,本文为无人机红外小目标检测提供了一种兼顾精度与效率的可行方法,可为安防监控、应急搜救与信息采集等应用提供解决思路。

基金项目:

本研究得到北京印刷学院科研平台建设项目(KYCPT202509)的支持。

原文链接:

https://doi.org/10.12677/airr.2025.146137

Read more

2026年AI Agent实战:从玩具到生产力的落地手册(附源码)

2026年AI Agent实战:从玩具到生产力的落地手册(附源码)

欢迎文末添加好友交流,共同进步! “ 俺はモンキー・D・ルフィ。海贼王になる男だ!” * 前言 * 目录 * 一、AI Agent 的核心架构 * 1.1 什么是AI Agent? * 1.2 2026年Agent技术栈全景 * 二、从零搭建生产级Agent框架 * 2.1 项目结构设计 * 2.2 核心代码:Agent基类 * 2.3 记忆管理系统 * 三、三大核心技术实现 * 3.1 ReAct框架:推理+行动协同 * 3.2 工具调用系统 * 3.3 任务规划器 * 四、实战案例:智能客服Agent * 4.1 场景分析

2026最新保姆级教程:手把手教你零基础安装与配置本地 AI 智能体 OpenClaw

2026最新保姆级教程:手把手教你零基础安装与配置本地 AI 智能体 OpenClaw

文章目录 * 前言 * 一、下载并安装 OpenClaw * 二、启动配置向导与绑定 AI 大脑 * 1. 启动向导 * 2. 确认账户类型 * 3. 选择快速入门模式 * 4. 选择大模型 (AI 大脑) * 5. 选择 API 接口区域 * 6. 填入你的专属 API Key * 三、连接通讯渠道 (Telegram) * 1. 选择 Telegram * 2. 绑定机器人的 Token * 第四步:安装扩展插件与重启服务 * 1. 技能插件 (Skills) * 2. 附加功能 (Hooks) * 3. 重启并应用配置 * 第五步:设备安全授权与最终测试 (见证奇迹!) * 1.

从「AI改变世界」到「AI帮我改Bug」:一个小厂架构师的Agent落地实战

从「AI改变世界」到「AI帮我改Bug」:一个小厂架构师的Agent落地实战

凌晨两点的顿悟:AI不是魔法,是工具 上周三凌晨两点,我坐在书房里揉着发涨的太阳穴——创业团队的产品刚上2.0版本,客户反馈的Bug堆了满满一屏幕。女儿的乐高积木还散在客厅地板上,老父亲的呼噜声从隔壁房间传来,而我面前的电脑屏幕上,一个红色的错误提示正在闪烁。 「要是有个AI能帮我自动定位Bug就好了。」我对着空气吐槽,顺手又灌了一口冰咖啡。 三个月前,我也是这么想的。那时候AI Agent的概念正火,我在各种技术大会上听了无数次「Agent将颠覆软件开发」的演讲。回到公司后,我拍着胸脯跟团队说:「咱们也搞个AI Agent,让它帮我们写代码、测Bug、甚至做需求分析!」 现在想来,当时的自己简直像个刚毕业的愣头青——热情有余,务实不足。 从「大而全」到「小而美」:我的Agent落地三步走 落地流程可视化 遇到问题 遇到问题 遇到问题 接入错误日志系统 懂代码库结构 全能Agent幻想 系统启动慢 代码质量差 功能臆想 反思与调整 找到最小可用场景

2026年3月18日 AI 每日动态

2026年3月18日 AI 每日动态

1. 【AI Coding 工具】Claude Code 终于有了"长期记忆"——claude-mem 爆红 Claude Code 用起来顺手,但每次开新会话就像把同事的记忆清零——项目背景要重新交代,之前做过的决策一问三不知。现在有个叫 claude-mem 的开源插件彻底改变了这件事。 它的工作方式很直接:自动抓取每次会话里的工具调用记录(读了哪些文件、改了哪些代码、跑了什么命令),会话结束后用 AI 把这些信息压缩成结构化摘要,下次开工时自动注入进来。一万 Token 的操作记录,最终压缩到 500 Token 左右,同时还支持自然语言检索历史("上次那个 React 重复渲染是怎么解的?")。 目前已有超 3 万人收藏,宣称能节省 90% 的 Token