摘要
针对无人机红外图像中目标尺度小、对比度低与边界模糊等问题,本文提出了一种基于 YOLOv11n 模型的多尺度注意力机制优化方法。首先,在引入小目标检测层的基础上,融合多分支与双向金字塔思想构建双向多分支辅助特征金字塔网络,通过可学习权重自适应融合各层特征,增强微小目标表征。其次,在检测头侧采用动态注意力检测头,从尺度、空间与通道三方面进行协同建模,提升关键区域聚焦与特征利用效率。最后,提出 NWD-Inner-MPDIoU 组合损失函数,协同提升低重叠、边界不清条件下的定位稳定性。在 HIT-UAV 红外小目标数据集上进行系统实验评估,结果表明:所提方法 mAP50 达 92.8%,相比基线模型提升 2.2%,且召回率与准确率分别提高 1.6% 和 0.6%。同时,模型仅小幅增加复杂度,整体仍保持轻量化与可部署性。综上,本文方法在保证效率的同时有效提升了无人机红外目标的检测质量,为后续扩展研究提供了可靠的技术基础。
网络架构
YOLOv11n 的网络架构如图 1 所示,由骨干网络、颈部网络、检测头三部分组成。

针对红外无人机图像中目标尺度小、对比度低、边界模糊且在低重叠区域易出现回归梯度稀疏、致使 YOLOv11n 存在漏检与定位不稳的问题,本文提出如下改进创新:
(1) 新增 P2 小目标检测层,以更高分辨率捕获微小目标细节提升召回率;
(2) 在颈部构建双向多分支辅助特征金字塔网络 (Bi-directional Multi-branch Auxiliary Feature Pyramid Network, BIMAFPN),实现多路径跨层与双向融合,强化浅层细节与高层语义的协同表征,提升复杂背景下的可分离性与鲁棒性;
(3) 提出 NWD-Inner-MPDIoU (Normalized Wasserstein Distance-Inner Scaling-Minimum Point Distance Intersection over Union) 组合损失函数,在低交并时提供连续且尺度稳健的几何度量,按重叠程度自适应缩放边界框并以最小点距离增强对位置与尺寸偏差的辨识,提高训练稳定性与收敛速度;
(4) 引入动态注意力检测头 (Dynamic Head, DyHead),自适应重加权不同尺度、空间位置与通道信息,形成统一高效的检测头表示,在控制推理开销的同时降低漏检与误检。
改进后的网络架构如图 2 所示。

本文在原有多尺度检测头的基础上增加 P2 小目标检测层 (特征图为 160 × 160),本文参考并扩展多分支辅助特征金字塔的设计思路,构建由自顶向下与自底向上两路信息交互、并行多分支横向连接组成的 BIMAFPN。网络结构如图 3 所示。

为应对红外无人机目标在低对比、尺度跨度大及轻微位移等条件下,检测头阶段易出现的'尺度选择不准、空间错位与通道利用不足'问题,本文在颈部输出之后引入动态注意力检测头 DyHead。其整体结构如图 4 所示。

实验设置
本文采用哈尔滨工业大学发布的 HIT-UAV 无人机红外目标检测数据集。
本文实验使用 PyTorch 框架,采用 GPU 加速完成。实验软硬件环境为:Ubuntu 22.04 操作系统,32 GB 内存,NVIDIA GeForce RTX 4090。软件配置为 Python 3.10.15、PyTorch 2.3、CUDA 12.1 与 cuDNN 8.9.0。训练基本参数设置如下:总轮数 300,批量大小 16,初始学习率 0.01。




