基于改进YOLOv11n的无人机红外目标检测算法

基于改进YOLOv11n的无人机红外目标检测算法

导读:

面向无人机红外图像中目标尺度小、对比度低与边界模糊等问题,本文提出了一种基于YOLOv11n模型的多尺度注意力机制优化方法。首先,在引入小目标检测层的基础上,融合多分支与双向金字塔思想构建双向多分支辅助特征金字塔网络,通过可学习权重自适应融合各层特征,增强微小目标表征。其次,在检测头侧采用动态注意力检测头,从尺度、空间与通道三方面进行协同建模,提升关键区域聚焦与特征利用效率。最后,提出NWD-Inner-MPDIoU组合损失函数,协同提升低重叠、边界不清条件下的定位稳定性。在HIT-UAV红外小目标数据集上进行系统实验评估,结果表明:所提方法mAP50达92.8%,相比基线模型提升2.2%,且召回率与准确率分别提高1.6%和0.6%。同时,模型仅小幅增加复杂度,整体仍保持轻量化与可部署性。综上,本文方法在保证效率的同时有效提升了无人机红外目标的检测质量,为后续扩展研究提供了可靠的技术基础。

作者信息:

康泽韬董智红*王孜心:北京印刷学院信息工程学院,北京

论文详情

YOLOv11n的网络架构如图1所示,由骨干网络、颈部网络、检测头三部分组成。

针对红外无人机图像中目标尺度小、对比度低、边界模糊且在低重叠区域易出现回归梯度稀疏、致使YOLOv11n存在漏检与定位不稳的问题,本文提出如下改进创新:

(1) 新增P2小目标检测层,以更高分辨率捕获微小目标细节提升召回率;

(2) 在颈部构建双向多分支辅助特征金字塔网络(Bi-directional Multi-branch Auxiliary Feature Pyramid Network, BIMAFPN),实现多路径跨层与双向融合,强化浅层细节与高层语义的协同表征,提升复杂背景下的可分离性与鲁棒性;

(3) 提出NWD-Inner-MPDIoU (Normalized Wasserstein Distance-Inner Scaling-Minimum Point Distance Intersection over Union)组合损失函数,在低交并时提供连续且尺度稳健的几何度量,按重叠程度自适应缩放边界框并以最小点距离增强对位置与尺寸偏差的辨识,提高训练稳定性与收敛速度;

(4) 引入动态注意力检测头(Dynamic Head, DyHead),自适应重加权不同尺度、空间位置与通道信息,形成统一高效的检测头表示,在控制推理开销的同时降低漏检与误检。

改进后的网络架构如图2所示。

本文在原有多尺度检测头的基础上增加P2小目标检测层(特征图为160 × 160),本文参考并扩展多分支辅助特征金字塔的设计思路,构建由自顶向下与自底向上两路信息交互、并行多分支横向连接组成的BIMAFPN。网络结构如图3所示。

为应对红外无人机目标在低对比、尺度跨度大及轻微位移等条件下,检测头阶段易出现的“尺度选择不准、空间错位与通道利用不足”问题,本文在颈部输出之后引入动态注意力检测头DyHead。其整体结构如图4所示。

本文采用哈尔滨工业大学发布的HIT-UAV无人机红外目标检测数据集。

本文实验使用PyTorch框架,采用GPU加速完成。实验软硬件环境为:Ubuntu 22.04操作系统,32 GB内存,NVIDIA GeForce RTX 4090。软件配置为Python 3.10.15、PyTorch 2.3、CUDA 12.1与cuDNN 8.9.0。训练基本参数设置如下:总轮数300,批量大小16,初始学习率0.01。

为全面衡量模型的检测性能与计算代价,本文选取精准率(Precision, P)、召回率(Recall, R)、平均精度(mAP)、参数量(Params)和GFLOPs五项指标。

为直观评估各改进环节的贡献,按“P2 → BIMAFPN → NWD-Inner-MPDIoU → DyHead”的顺序逐步叠加,构建模型A、B、C、D,与基线YOLOv11n在相同设置下对比,结果如表1所示。

为进一步评估所提出方法,在HIT-UAV数据集上与主流目标检测算法进行了对比,结果如表2所示。

基于HIT-UAV数据集的对比与消融实验表明,该方案在精度与稳定性上均取得了较好效果:相较基线YOLOv11n,mAP50提升约2.2%,召回率提升约1.6%,准确率同步提高;参数量与计算量仅小幅增加,整体仍处于轻量级范畴,消融结果进一步验证了各模块的互补性。

尽管如此,方法在极端杂波背景、较强热噪声或剧烈运动模糊条件下仍有改进空间。后续工作仍可从两方面展开:其一,开展剪枝、量化与蒸馏以压缩模型、降低推理开销。其二,结合时间一致性与多模态信息以增强在复杂场景下的稳健性与泛化能力。综上,本文为无人机红外小目标检测提供了一种兼顾精度与效率的可行方法,可为安防监控、应急搜救与信息采集等应用提供解决思路。

基金项目:

本研究得到北京印刷学院科研平台建设项目(KYCPT202509)的支持。

原文链接:

https://doi.org/10.12677/airr.2025.146137

Read more

Vibe Coding范式实战:用AI工具链(Stitch+Figma+ai studio+Trae)快速开发全栈APP

Vibe Coding范式实战:用AI工具链(Stitch+Figma+ai studio+Trae)快速开发全栈APP

文章目录 * 概要 * stitch制作设计稿 * figma 原型展示 * ai studio 生成前端代码 * 基于trae + Supabase生成后端代码和数据库 * Github + vercel * pc端后台管理系统设计 概要 在 AI 技术深度渗透软件开发领域的当下,一种名为 “Vibe Coding”(氛围编程)的全新范式正在重塑开发者的工作方式。它的核心在于,开发者不再是逐行编写代码的 “码农”,而是通过自然语言描述意图、引导 AI 生成代码的 “创意引导者” 和 “结果验证者”,从而将精力聚焦于更高价值的产品设计和逻辑思考上。 本文提供一种 Vibe Coding 的工作模式:设计阶段以 Google Stitch 为起点,开发者通过文本或草图快速生成响应式 UI 设计与前端代码,再无缝导入 Figma 进行精细化视觉调整和原型设计,实现了从 “想法” 到

知网查一次AI率要花多少钱?怎么查才最划算?

知网查一次AI率要花多少钱?怎么查才最划算?

知网查一次AI率要花多少钱?怎么查才最划算? 快到毕业季了,身边越来越多同学开始关心一个很现实的问题:**知网查一次AIGC检测到底多少钱?**毕竟论文查重已经花了一笔,再加上查AI率,钱包真的扛不住。 我去年帮室友折腾过好几轮,踩了不少坑,今天就把知网查AI的费用明明白白拆给你看,顺便分享一套亲测有效的省钱方案。 知网AIGC检测的官方收费标准 先说结论:知网AIGC检测并不便宜。 目前知网的AIGC检测是跟查重服务绑定的,学校一般会提供1-2次免费查重机会(部分学校已经包含AIGC检测),但如果你自己额外查,费用大概是这样的: 检测类型价格区间说明本科PMLC(含AIGC)约280-350元/次各渠道价格不同硕博VIP(含AIGC)约380-580元/次论文越长价格越高单独AIGC检测约60-120元/次部分渠道可单独查期刊论文AIGC约80-150元/次按篇计费 这个价格对学生来说确实不算低。更关键的是——很多同学第一次查完发现AI率偏高,改完还得再查,一来二去查个三四次,费用就上千了。 为什么不建议直接上来就查知网 我见过太多同学犯这个错误:论文写

AI如何解码TTCBEYJRZXKIOIJ6BGLUA19ZY2HLBWVFBWQ1XZ这类加密字符串

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 输入框内输入如下内容: 开发一个AI辅助工具,能够自动识别和解析类似TTCBEYJRZXKIOIJ6BGLUA19ZY2HLBWVFBWQ1XZ的加密字符串。工具应包含以下功能:1. 输入任意加密字符串;2. 自动识别可能的编码方式(如Base64、Hex等);3. 提供解码结果和可能的原始数据格式;4. 支持批量处理。使用Python实现,并提供一个简单的Web界面供用户输入和查看结果。 1. 点击'项目生成'按钮,等待项目生成完整后预览效果 AI如何解码TTCBEYJRZXKIOIJ6BGLUA19ZY2HLBWVFBWQ1XZ这类加密字符串 最近在开发过程中遇到了一个有趣的需求:需要解析类似TTCBEYJRZXKIOIJ6BGLUA19ZY2HLBWVFBWQ1XZ这样的加密字符串。这类字符串看起来毫无规律,但很可能使用了某种常见的编码方式。于是我开始思考,如何利用AI技术来辅助开发人员快速识别和破解这类编码。 加密字符串解析的挑战 1. 编码方式多

十分钟搞懂 AI 时代核心概念:OpenClaw、Agent、Skill、Token、LLM 到底是什么?

十分钟搞懂 AI 时代核心概念:OpenClaw、Agent、Skill、Token、LLM 到底是什么? 你有没有遇到过这种情况——别人聊天时提到"Agent"、"Token"、"Skill"这些词,你感觉自己在听天书? 别慌,今天我用最通俗的方式,带你一次性搞懂这些概念,以及它们之间的关系。 先从最基础的开始:大语言模型(LLM) 大语言模型,英文缩写是 LLM,你可以把它理解为 AI 领域的"超级大脑”。 你可以想象一个读遍了全世界所有图书馆的学者,什么都懂一点。你问它问题,它能理解你的意思并给出回答。GPT-4、Claude、 Gemini、文心一言、通义千问,这些都是大语言模型。 在 OpenClaw 里,