基于改进YOLOv11n的无人机红外目标检测算法

基于改进YOLOv11n的无人机红外目标检测算法

导读:

面向无人机红外图像中目标尺度小、对比度低与边界模糊等问题,本文提出了一种基于YOLOv11n模型的多尺度注意力机制优化方法。首先,在引入小目标检测层的基础上,融合多分支与双向金字塔思想构建双向多分支辅助特征金字塔网络,通过可学习权重自适应融合各层特征,增强微小目标表征。其次,在检测头侧采用动态注意力检测头,从尺度、空间与通道三方面进行协同建模,提升关键区域聚焦与特征利用效率。最后,提出NWD-Inner-MPDIoU组合损失函数,协同提升低重叠、边界不清条件下的定位稳定性。在HIT-UAV红外小目标数据集上进行系统实验评估,结果表明:所提方法mAP50达92.8%,相比基线模型提升2.2%,且召回率与准确率分别提高1.6%和0.6%。同时,模型仅小幅增加复杂度,整体仍保持轻量化与可部署性。综上,本文方法在保证效率的同时有效提升了无人机红外目标的检测质量,为后续扩展研究提供了可靠的技术基础。

作者信息:

康泽韬董智红*王孜心:北京印刷学院信息工程学院,北京

论文详情

YOLOv11n的网络架构如图1所示,由骨干网络、颈部网络、检测头三部分组成。

针对红外无人机图像中目标尺度小、对比度低、边界模糊且在低重叠区域易出现回归梯度稀疏、致使YOLOv11n存在漏检与定位不稳的问题,本文提出如下改进创新:

(1) 新增P2小目标检测层,以更高分辨率捕获微小目标细节提升召回率;

(2) 在颈部构建双向多分支辅助特征金字塔网络(Bi-directional Multi-branch Auxiliary Feature Pyramid Network, BIMAFPN),实现多路径跨层与双向融合,强化浅层细节与高层语义的协同表征,提升复杂背景下的可分离性与鲁棒性;

(3) 提出NWD-Inner-MPDIoU (Normalized Wasserstein Distance-Inner Scaling-Minimum Point Distance Intersection over Union)组合损失函数,在低交并时提供连续且尺度稳健的几何度量,按重叠程度自适应缩放边界框并以最小点距离增强对位置与尺寸偏差的辨识,提高训练稳定性与收敛速度;

(4) 引入动态注意力检测头(Dynamic Head, DyHead),自适应重加权不同尺度、空间位置与通道信息,形成统一高效的检测头表示,在控制推理开销的同时降低漏检与误检。

改进后的网络架构如图2所示。

本文在原有多尺度检测头的基础上增加P2小目标检测层(特征图为160 × 160),本文参考并扩展多分支辅助特征金字塔的设计思路,构建由自顶向下与自底向上两路信息交互、并行多分支横向连接组成的BIMAFPN。网络结构如图3所示。

为应对红外无人机目标在低对比、尺度跨度大及轻微位移等条件下,检测头阶段易出现的“尺度选择不准、空间错位与通道利用不足”问题,本文在颈部输出之后引入动态注意力检测头DyHead。其整体结构如图4所示。

本文采用哈尔滨工业大学发布的HIT-UAV无人机红外目标检测数据集。

本文实验使用PyTorch框架,采用GPU加速完成。实验软硬件环境为:Ubuntu 22.04操作系统,32 GB内存,NVIDIA GeForce RTX 4090。软件配置为Python 3.10.15、PyTorch 2.3、CUDA 12.1与cuDNN 8.9.0。训练基本参数设置如下:总轮数300,批量大小16,初始学习率0.01。

为全面衡量模型的检测性能与计算代价,本文选取精准率(Precision, P)、召回率(Recall, R)、平均精度(mAP)、参数量(Params)和GFLOPs五项指标。

为直观评估各改进环节的贡献,按“P2 → BIMAFPN → NWD-Inner-MPDIoU → DyHead”的顺序逐步叠加,构建模型A、B、C、D,与基线YOLOv11n在相同设置下对比,结果如表1所示。

为进一步评估所提出方法,在HIT-UAV数据集上与主流目标检测算法进行了对比,结果如表2所示。

基于HIT-UAV数据集的对比与消融实验表明,该方案在精度与稳定性上均取得了较好效果:相较基线YOLOv11n,mAP50提升约2.2%,召回率提升约1.6%,准确率同步提高;参数量与计算量仅小幅增加,整体仍处于轻量级范畴,消融结果进一步验证了各模块的互补性。

尽管如此,方法在极端杂波背景、较强热噪声或剧烈运动模糊条件下仍有改进空间。后续工作仍可从两方面展开:其一,开展剪枝、量化与蒸馏以压缩模型、降低推理开销。其二,结合时间一致性与多模态信息以增强在复杂场景下的稳健性与泛化能力。综上,本文为无人机红外小目标检测提供了一种兼顾精度与效率的可行方法,可为安防监控、应急搜救与信息采集等应用提供解决思路。

基金项目:

本研究得到北京印刷学院科研平台建设项目(KYCPT202509)的支持。

原文链接:

https://doi.org/10.12677/airr.2025.146137

Read more

OpenClaw基础-3-telegram机器人配置与加入群聊

OpenClaw基础-3-telegram机器人配置与加入群聊 💡 大家好,我是可夫小子,《小白玩转ChatGPT》专栏作者,关注AI编程、AI自动化和自媒体。 Openclaw的优势是接入各种聊天工作,在前面的文章里,已经介绍了如何接入飞书。但之前我也提到了,飞书的最大的问题是请求多的限制,以及无法在非认证企业账号下面组建群聊。但这些限制另一个聊天工具可以打破,那就是Telegram,今天就跟大家分享一下,如果在OpenClaw里面接入Telegram。 第一步:Openclaw端配置 通过命令openclaw config,local→channels→telegrams 这里等待输入API Token,接下来我们去Telegram里面获取 第二步:Telegram端配置 1. 1. 在聊天窗口找到BotFather,打开对话与他私聊 2. 3. 然后再输入一个机器人,再输入一个账号名username,这里面要求以Bot或者Bot结尾,这个是全网的id,要 2. /newbot 来创建一个机器人,输入一个名字name

《星辰 RPA 全自动:做一个小红书自动发文机器人》

《星辰 RPA 全自动:做一个小红书自动发文机器人》

前引:在企业数智化转型的浪潮中,如何突破 “有 AI 无落地、有流程无智能” 的困局?星辰 Agent 与星辰 RPA 的出现,正是为了解决这一痛点。作为科大讯飞旗下的双核心产品,星辰 Agent 以企业级 Agentic Workflow 开发平台为底座,提供 AI 工作流编排、模型管理与跨系统连接能力;而星辰 RPA 则以超过 300 个自动化原子能力,让业务流程真正 “动” 起来! 目录 一、企业机器人自动化平台:RPA (1)RPA介绍 (2)服务端安装 (1)clone项目 (2)配置为本地访问 (3)检查镜像源 (4)配置default.conf

VLA机器人革命:解析当下10篇最关键的视觉-语言-动作模型论文

VLA机器人革命:解析当下10篇最关键的视觉-语言-动作模型论文

VLA机器人革命:解析当下10篇最关键的视觉-语言-动作模型论文 概览 2024-2026年,机器人领域正经历一场范式转换:从传统的任务特定编程转向视觉-语言-动作(Vision-Language-Action, VLA)模型。这些模型将视觉感知、自然语言理解和动作执行统一在单一框架中,让机器人能够像人类一样理解指令、推理场景并执行复杂操作。 本文精选5篇最fundamental的基础性论文和5篇热度最高的前沿论文,深入剖析VLA领域的核心思想、技术演进和未来方向。这些论文代表了从Google DeepMind、NVIDIA、斯坦福、Physical Intelligence等顶尖机构的最新突破,涵盖了从单臂操作到双臂人形机器人、从模拟环境到真实家庭场景的全方位进展。 Part I: 五篇Fundamental基础性论文 这些论文奠定了VLA领域的理论基础和技术范式,是理解整个领域发展脉络的关键。 1. RT-2: New Model Translates Vision and Language into Action 发表机构:Google DeepMind 时间:

LazyLLM 测评 | 低代码颠覆 AI 开发!代码专家智能体进阶模块实战

LazyLLM 测评 | 低代码颠覆 AI 开发!代码专家智能体进阶模块实战

摘要: LazyLLM 是商汤大装置推出的开源低代码框架,作为构建和优化多 Agent 应用的一站式开发框架,覆盖应用搭建、数据准备、模型部署、微调、评测等全流程开发环节,提供丰富的工具支持。其以模块化设计打破传统开发壁垒,通过数据流驱动重构开发逻辑,能让开发者用极简代码实现工业级复杂 AI 应用,摆脱冗余编码束缚,聚焦核心业务场景,降低 AI 应用构建成本并支持持续迭代优化。堪称 AI 开发者的 “效率神器”,其技术普惠理念为 AI 开发领域带来新的实践范式,推动了更高效的开发模式。本文将以Python编程为切入点,带你深入了解LazyLLM框架。 LazyLLM 是构建和优化多 Agent 应用的一站式开发工具,为应用开发过程中的全部环节(包括应用搭建、数据准备、模型部署、模型微调、评测等)提供了大量的工具,协助开发者用极低的成本构建 AI 应用,并可以持续地迭代优化效果。 LazyLLM作为商汤大装置推出的开源低代码框架,简直是AI开发者的“效率神器”