面向无人机和智能手机的YOLOv8模型改进实战—棉叶病虫害多尺度目标检测

面向无人机和智能手机的YOLOv8模型改进实战—棉叶病虫害多尺度目标检测

一、引言

       YOLO(You Only Look Once)作为一种非常流行的目标检测算法,以其高效和准确性而闻名。YOLOv8作为这一系列算法较新颖的版本,相较于其前身在准确性、速度和模型大小方面都有所改进。博主将分享1篇发表在《Industrial Crops and Products》(中科院1区TOP)的“CPD-YOLO: A cross-platform detection method for cotton pests and diseases using UAV and smartphone imaging”,说明YOLOv8模型在跨平台(无人机+手机)场景下的棉花病虫害多尺度目标检测中的应用。主要改进点如下:

(1)特征融合改善:构建Bi-FPN +RepTransformer网络,实现多尺度特征的高效融合与推理加速。

(2)检测头增加:设计4头动态检测网络,赋予模型多维动态感知能力。

(3)损失函数优化:提出Inner-Shape IoU 边界框回归损失函数,提升定位精度,同时加速模型收敛。

论文原文:Redirecting

部分代码:https://github.com/xfl-521/GW_Y_YOLO

欢迎大家交流、引用和分享,博文如需转载请注明来源。

二、研究背景

      棉花是一种重要的经济作物,也是世界范围内纺织品的主要原料。棉花种植期间主要面临病虫害的侵袭,威胁棉花生长发育,引发产量骤减,严重削弱棉花的商品属性和市场竞争力。病虫害的侵袭会导致棉花叶片细胞结构中的色素、水分、营养元素等性质发生变化,这种变化会反映在棉叶图像信息中,如颜色和形态。近年来,随着深度学习的发展,以YOLO系列模型为代表的目标检测算法,因其检测精度高、泛化能力和鲁棒性强等优势在作物病虫害诊断中应用广泛。因此,研发基于YOLO的棉叶病虫害检测方法有望为棉农提供移动互联新兴形势下的田间棉叶病虫害精确检测服务,助力棉花产业高质量发展。

三、数据集

(一)数据获取与标注

      采用大疆Mavic3无人机和荣耀9手机采集了蚜虫、双斑萤叶甲和褐斑病侵袭下的棉叶图像数据,其中无人机图像分辨率为4000×3000像素,手机图像为3968×2976像素。随后对图像进行人工标注,生成包含病虫害位置及类别信息。

部分数据集:https://huggingface.co/datasets/Fukang2000/CPD_YOLOGWY/tree/main

参考链接:

X-AnyLabeling: https://blog.ZEEKLOG.net/weixin_45686120/article/details/144177943

AnyLabeling GitHub仓库: https://github.com/vietanhdev/anylabeling

AnyLabeling官方文档: https://anylabeling.nrl.ai

                                             (a)无人机图像

                                         (b)智能手机图像

图1 棉花病虫害图数据标注示例

四、模型改进

(1)RepViT-BiFPN:在RepViT block中采用了结构重参数化技术,以提高模型在训练期间的学习效率,并在推理期间减少计算和内存成本。采用跨块方式放置挤压-激励(SE)层,以最大化准确性收益,同时最小化延迟增加。

参考链接:https://blog.ZEEKLOG.net/qq_38668236/article/details/147259859

(2)DyHead:

参考链接:

https://blog.ZEEKLOG.net/zmyzcm/article/details/135185606?ops_request_misc=%257B%2522request%255Fid%2522%253A%25225c40eb4f2345606aaaa9f60c7a4176ef%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=5c40eb4f2345606aaaa9f60c7a4176ef&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_click~default-2-135185606-null-null.142^v102^pc_search_result_base5&utm_term=DyHead&spm=1018.2226.3001.4187

(3)Inner-IoU:对于高IoU的样本,使用较小的辅助边界框来计算损失可以加快收敛,而低IoU的样本则更适合使用较大尺寸的辅助边界框。基于此Inner-IoU应运而生,它通过辅助边界框来计算IoU损失。

参考链接:

https://blog.ZEEKLOG.net/athrunsunny/article/details/134458647?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522e90d1474bc3019db6c0d9db420e319ca%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=e90d1474bc3019db6c0d9db420e319ca&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-134458647-null-null.142^v102^pc_search_result_base5&utm_term=inner%20iou&spm=1018.2226.3001.4187

(4)Shape-IoU:Shape-IoU通过引入形状和尺度感知因子,改进了传统IoU的计算方式,使其能够更准确反映边界框之间的真实相似度,提高小目标的检测精度,增强模型对不规则形状目标的适应性。

参考链接:

https://blog.ZEEKLOG.net/feng1790291543/article/details/147256042?ops_request_misc=&request_id=&biz_id=102&utm_term=Shape-Iou&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-147256042.142^v102^pc_search_result_base5&spm=1018.2226.3001.4187

                     

图2 改进的YOLOv8模型结构图

五、模型结果

      无人机图像中的棉叶病虫害目标较智能手机图像更小且数量更多,尽管典型YOLO系列模型计算复杂度较低,但其特征融合和多尺度目标检测能力较弱。CPD-YOLO在智能手机图像中表现优异,尤其在小尺度、目标数量较少且特征明显的场景下。CPD-YOLO通过增强特征融合和构建多尺度动态检测头网络,有效减少了无人机图像中的漏检和误检。

(一)消融实验结果

表1消融实验结果

表2 模型对比实验结果

图3 棉叶病虫害检测结果示例

六、结论

        研究提出了基于CPD-YOLO的棉花病虫害多尺度目标检测方法,适用于无人机和智能手机场景。消融实验与对比实验结果验证了改进策略的有效性,结果表明CPD-YOLO的漏检率最低,相较原始YOLOv8模型,其F1与mAP分别提升了7.44%和7.08%。

      考虑到DeepSeek、豆包、文心一言等国内人工智能大语言模型的崛起,未来研究可在进一步扩充实验数据的基础上接入大语言模型,辅助棉叶病虫害诊断和防治决策,并由植保专家对决策结果进行评估和校正,建立决策结果与专家修正的闭环优化机制,提升棉花病虫害诊断和防控的AI+精准指导。

论文原文:Redirecting

部分代码:https://github.com/xfl-521/GW_Y_YOLO

撰写博客不易,请大家关注、点赞,博文如需转载请注明来源,感谢你们的支持!

Read more

机器人算法、系统和架构十年演进

2015 - 2025这十年,机器人领域因算力提升、深度学习与大模型的爆发,实现了算法、系统和架构的跨越式演进。从传统控制依赖规则到具身智能主导,从集中式控制到分布式协同,每一环的革新都推动机器人从结构化场景走向复杂未知环境,以下是详细梳理: 机器人算法:从模块化优化到多模态具身推理 这十年算法的核心演进是从传统控制论主导,历经深度学习重构,最终进入大模型驱动的具身智能阶段,决策逻辑更贴近类人思维。 1. 2015 - 2020:深度学习打破传统控制框架 * 感知层:2012年ImageNet大赛后CNN兴起,2015年后深度视觉技术快速落地。比如Dex - Net提出物理仿真+深度网络的方案,通过仿真生成上万种3D物体点云训练CNN,让机器人面对未知异形物体也能输出高置信度抓取点,彻底改变了过去依赖几何建模和CAD的抓取方式。同时视觉SLAM技术成熟,解决了机器人在动态场景中的定位与地图构建问题。 * 控制层:强化学习开始从虚拟场景向现实渗透。早期四足机器人如波士顿动力SPOT仍用传统MPC策略,但这一阶段研究者已尝试将强化学习用于机器人动力学控制,虽受限于硬

多FPGA 进行模型推理

1. 多颗 FPGA 实现模型推理:完全可行,而且是主流方案 * 绝大多数大模型、高吞吐、低延迟推理场景(如云端 AI 加速卡、自动驾驶域控、机器人中央计算单元)都是多 FPGA / 多芯片协同推理。 * 典型做法: * 模型切层 / 切通道 / 切任务分布到多片 FPGA * 片间流水并行 + 数据并行 * 每片 FPGA 负责一部分算子 / 层 / 特征图 只要带宽、时延、同步设计得当,性能几乎可以接近线性扩展。 2. 多 FPGA 之间用什么总线 / 接口通信? 按速度从高到低、从近到远排序: (1)芯片内 / 紧耦合:Die-to-Die 互联(D2D) * UCIe、BoW、AIB 等

直播效率工具如何提升互动体验:神奇弹幕机器人全功能指南

直播效率工具如何提升互动体验:神奇弹幕机器人全功能指南 【免费下载链接】Bilibili-MagicalDanmaku【神奇弹幕】哔哩哔哩直播万能场控机器人,弹幕姬+答谢姬+回复姬+点歌姬+各种小骚操作,目前唯一可编程机器人 项目地址: https://gitcode.com/gh_mirrors/bi/Bilibili-MagicalDanmaku 直播间互动效率低下?场控人手不足导致观众流失?试试这款可编程直播助手——神奇弹幕机器人,它能让你轻松实现弹幕智能管理、自动互动响应和个性化内容推送,全方位提升直播专业度。作为目前唯一支持自定义脚本的B站直播辅助工具,它将帮助主播从繁琐的重复工作中解放出来,专注于内容创作与观众互动。 1. 为什么选择可编程直播助手? 在直播行业竞争日益激烈的今天,高效的场控工具已成为主播的核心竞争力。传统人工场控不仅需要投入大量人力成本,还难以应对高并发互动场景。神奇弹幕机器人通过模块化设计,将直播互动流程自动化、智能化,让单人主播也能打造出专业团队级别的直播效果。 主播视角的实时互动控制面板,可快速调整直播标题、封面等核心设置 核心价值对

学习FPGA(八)快速傅里叶变换

前言         傅里叶变换能通过将信号的时域变换到信号的频域,因为在频域中,系统的响应就等于信号与系统传函的频域上相乘(时域上是卷积),相比于直接在时域里做卷积,先进行傅里叶变换,再在频域上相乘,最后通过逆傅里叶变换反变换回来的步骤看似更长更复杂,但在工程技术上却相对容易实现。         传统的傅里叶变换属于工程数学范畴,主要针对连续时间信号进行时域-频域的变换。而从工程技术的角度来看,人们不可能做到对信号进行连续时间的采样,因此离散傅里叶变换(DFT)也就在这种情况下诞生了。时间久了以后,人们发现DFT的算法时间复杂度太高了,优化DFT的迫在眉睫,快速傅里叶变换(FFT)的出现使原本时间复杂度o(n^2)的DFT直接降到了o(nlogn)。         以上算是FFT的极简版背景故事,具体如何发展如何变换的,数字信号处理相关课程一定有讲,这里就暂时不细讲了,这里还是主要以FPGA中实现快速傅里叶变换为主。         由于我仅在FPGA上实现FFT对信号进行时域-频域的变换,并做到了基波频率的采集,目前尚未如之前的一些历程那样试过其他的方案,因此本文不能给