Yolo11 基于DroneVehicle数据集的无人机视角下车辆目标检测

Yolo11 基于DroneVehicle数据集的无人机视角下车辆目标检测

1、关于DroneVehicle数据集介绍

DroneVenicle数据集是由天津大学收集、标注的大型无人机航拍车辆数据集。
DroneVehicle 数据集由无人机采集的共 56,878 幅图像组成,其中一半为 RGB 图像,其余为红外图像。我们对五个类别进行了带有方向性边界框的丰富标注。其中,汽车car 在 RGB 图像中有 389,779 个标注,在红外图像中有 428,086 个标注;卡车truck 在 RGB 图像中有 22,123 个标注,在红外图像中有 25,960 个标注;公交车bus 在 RGB 图像中有 15,333 个标注,在红外图像中有 16,590 个标注;面包车van 在 RGB 图像中有 11,935 个标注,在红外图像中有 12,708 个标注;货车freight car 在 RGB 图像中有 13,400 个标注,在红外图像中有 17,173 个标注。

2、DroneVehicle数据集下载

 参见作者Github:https://github.com/VisDrone/DroneVehicle

3、DroneVehicle数据集处理

在 DroneVehicle 中,为了标注图片边界上的物体,作者在每张图片的上下左右四边设置了宽度为 100 像素的白色边框,这样下载的图片尺寸就是 840 x 712。在训练我们的检测网络时,我们可以进行预处理,去除周围的白色边框,并将图像尺寸改为 640 x 512。

处理前后对比。

去除白边代码:

import numpy as np import cv2 import os from tqdm import tqdm def create_file(output_dir_vi, output_dir_ir): if not os.path.exists(output_dir_vi): os.makedirs(output_dir_vi) if not os.path.exists(output_dir_ir): os.makedirs(output_dir_ir) print(f'Created folder:({output_dir_vi}); ({output_dir_ir})') def update(input_img_path, output_img_path): image = cv2.imread(input_img_path) cropped = image[100:612, 100:740] # 裁剪坐标为[y0:y1, x0:x1] cv2.imwrite(output_img_path, cropped) dataset_dir_vi = r'valimg' # 处理前可见光图片目录 output_dir_vi = r'valimg2' # 处理后可见光图片目录 dataset_dir_ir = r'valimgr' # 处理前红外光图片目录 output_dir_ir = r'valimgr2' # 处理后红外光图片目录 # 检查文件夹是否存在,如果不存在则创建 create_file(output_dir_vi, output_dir_ir) # 获得需要转化的图片路径并生成目标路径 image_filenames_vi = [(os.path.join(dataset_dir_vi, x), os.path.join(output_dir_vi, x)) for x in os.listdir(dataset_dir_vi)] image_filenames_ir = [(os.path.join(dataset_dir_ir, x), os.path.join(output_dir_ir, x)) for x in os.listdir(dataset_dir_ir)] # 转化所有图片 print('Start transforming vision images...') for path in tqdm(image_filenames_vi): update(path[0], path[1]) print('Start transforming infrared images...') for path in tqdm(image_filenames_ir): update(path[0], path[1]) 

4、制作Yolo目标检测需要的数据集文件

4.1、下载DroneVehicle的coco格式的检测框标签文件

4.2、通过标注软件将coco格式的标签文件转为VOC格式的标签文件

这里我用的是X-AnyLabeling作为标注软件。

4.3、处理VOC格式的标签文件并转成Yolo格式的标签文件

处理该数据集标签文件时发现部分检测框的位置可能会在图片边缘外面,导致直接转成YOLO的时候,会出现负坐标或者大于1的坐标值,这样会导致模型训练不了或者存在一定问题,所以对该部分检测框在转换时需进行特殊处理。注意:X-AnyLabeling也可以直接导出YOLO格式标签,但是经测试X-AnyLabeling也没有处理大于1的坐标值。

xml2txt.py

import xml.etree.ElementTree as ET import shutil import os import imagesize # 定义识别目标或类集合 object = 'datasets' # 根据自定义的数据集名称 if os.path.exists("./%s/labels/"%object): # 如果文件存在 shutil.rmtree("./%s/labels/"%object) os.makedirs("./%s/labels/"%object) else: os.makedirs("./%s/labels/"%object) sets = ['train', 'val'] # 修改类别(自定义) classes =["car", "truck", "bus", "van", "freight_car"] def convert(size, box): # 坐标信息归一化至0-1 dw = 1. / size[0] dh = 1. / size[1] x = (box[0] + box[1]) / 2.0 y = (box[2] + box[3]) / 2.0 w = box[1] - box[0] h = box[3] - box[2] x = x * dw w = w * dw y = y * dh h = h * dh return (x, y, w, h) def convert_annotation(image_id): in_file = open('./%s/xml/%s.xml' % (object,image_id)) # xml文件 out_file = open('./%s/labels/%s.txt' % (object,image_id), 'w') # txt文件 image_file = open('./%s/images/%s.jpg' % (object,image_id)) # pic文件 print("in_file,",in_file) tree = ET.parse(in_file) # f = open(in_file.name,encoding="utf-8") # tree = ET.parse(f) root = tree.getroot() size = root.find('size') # 这里的width 和 height 在Autolabelimg下自动标注可能会被修改,需替换成图片的真实宽高 # w = int(size.find('width').text) # h = int(size.find('height').text) w, h = imagesize.get(image_file.name) for obj in root.iter('object'): difficult = obj.find('difficult').text cls = obj.find('name').text if cls not in classes or int(difficult) == 1: continue cls_id = classes.index(cls) # 类别序号 xmlbox = obj.find('bndbox') xmin = float(xmlbox.find('xmin').text) xmin = xmin if xmin >= 0 else 0.0 # 左上角x坐标如果小于0都化成0 xmax = float(xmlbox.find('xmax').text) xmax = xmax if xmax <= w else float(w) # 右下角x坐标如果大于图片宽度了都为图片宽度值 ymin = float(xmlbox.find('ymin').text) ymin = ymin if ymin >= 0 else 0.0 # 左上角y坐标如果小于0都化成0 ymax = float(xmlbox.find('ymax').text) ymax = ymax if ymax <= h else float(h) # 右下角y坐标如果大于图片高度了都为图片高度值 b = (xmin,xmax ,ymin ,ymax) bb = convert((w, h), b) # 归一化 out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n') for image_set in sets: if not os.path.exists('./%s/labels/'%object): os.makedirs('./%s/labels/'%object) image_ids = open('./%s/ImageSets/%s.txt' % (object,image_set)).read().strip().split() list_file = open('./%s/%s.txt' % (object,image_set), 'w') for image_id in image_ids: list_file.write('./images/%s.jpg\n' % (image_id)) # 要注意图片的后缀名是什么 convert_annotation(image_id) list_file.close() 

 4.4、按上述步骤处理train、val、test三个数据集文件

我在这里只处理可见光部分的数据集,红外光数据集处理跟该处理方式相同。
我的处理思路:
1)因为不需要测试集,所以我将val验证集的1469个数据和test测试集8980个数据的20%的数据作为我的验证集,即1469+8980*0.2=3265个数据验证集。
2)将train训练集的17990个数据和test测试集8980个数据的80%的数据作为我的训练集,即17990+8980*0.8=25174个数据训练集。
3)整理我的训练集和验证集

此时数据集已是YOLO格式,可以直接训练。

5、在Yolo11网络中训练

我选择了yolo11s的网络权重进行模型训练,训练100个epoch结果如下:

可以看到训练结果还不错。

验证集上标签可视化:

6、使用训练好的模型进行预测

第一张图片是val验证集中找的,第二张图片是网络上随便找的,检测结果比较理想。

7、结语及注意事项

虽然从训练结果上看效果还不错,但是仅针对于该种无人机航拍视角下,如果是斜视视角则效果较差。其次红外光下的检测效果目前还没测过,以及可见光和红外光融合检测效果也未经测试。

需要注意的点:处理白边、处理在图片边缘外的检测框问题。

 

Read more

Flutter Web 开发:解决跨域(CORS)问题的终极指南

Flutter Web 开发:解决跨域(CORS)问题的终极指南

Flutter Web 开发:解决跨域(CORS)问题的终极指南 在 Flutter Web 开发过程中,默认情况下浏览器会遵循同源策略。当你的应用尝试加载不同域名的网络资源(如 API 接口、图片等)时,经常会遇到 CORS(跨域资源共享) 错误,导致请求失败。 虽然生产环境应由后端配置 CORS 头来解决,但在本地开发和调试阶段,我们可以通过修改 Flutter 工具链源码来临时禁用浏览器的安全策略,从而顺利调试。 以下是详细的操作步骤: 🛠️ 操作步骤 第一步:定位 chrome.dart 文件 首先,你需要找到 Flutter SDK 中负责启动 Chrome 浏览器的配置文件 chrome.dart。 参考路径(请根据你的实际安装路径调整): <你的

2025实测7款AI写小说神器!从卡文到日更,新手老手都适配

2025实测7款AI写小说神器!从卡文到日更,新手老手都适配

写小说最崩溃的不是没脑洞,是大纲写一半断层、卡文卡到怀疑人生,甚至熬夜写的稿子突然丢失! 之前让我用写小说工具可能会不屑一顾,但现在是2025年,AI元年,AI写小说工具早就不是“人工智障”,而是能补逻辑、存稿子、找素材的创作搭子。 我实测了15款工具,筛选出8款真正落地能用的,覆盖小说软件生成器、小说的素材获取、小说大纲范例超详细生成等全场景,无广干货,建议收藏备用~ 1、蛙蛙写作 传送门:https://wawawriter.com 简介:主打快速扩写和润色的一站式工具,适配追求日更速度的网文作者,是提升创作效率的神器。 核心功能: 支持环境描写、对话内容智能扩写,能把干瘪文字变得生动;内置去AI味润色功能,优化文本流畅度;提供短篇速写和章节续写模板,解决卡文痛点。 实测体验: 我写商业文需要凑字数时用它超香!把“天气阴沉”扔进去,直接扩写成“铅灰色的乌云压得很低,风卷着枯叶在街角打转,空气里满是暴雨将至的压抑”,三百字轻松到手。 2、笔灵AI 传送门:

数智驱动:医学编程与建模技术在智慧医院AI建设中的创新与变革

数智驱动:医学编程与建模技术在智慧医院AI建设中的创新与变革

一、引言 1.1 研究背景与意义 在信息技术飞速发展的数智化时代,医疗行业正经历着深刻变革,医院的发展模式也在不断转型升级。随着人口老龄化加剧、疾病谱的变化以及人们对医疗服务质量要求的日益提高,传统的医疗模式已难以满足社会的需求,智慧医院建设成为医疗行业发展的必然趋势。智慧医院旨在利用先进的信息技术,实现医疗服务的智能化、高效化和个性化,提升医疗质量,改善患者就医体验。 医学编程与建模作为信息技术在医疗领域的重要应用,对医院人工智能建设起着关键作用。在医疗数据处理方面,医院每天都会产生海量的医疗数据,包括患者的病历、检查检验报告、影像资料等。这些数据蕴含着丰富的信息,但传统的数据处理方式难以对其进行有效分析和利用。医学编程通过开发高效的数据处理算法和软件,可以快速准确地对医疗数据进行清洗、整合和分析,挖掘其中的潜在价值,为医疗决策提供有力支持。例如,利用数据挖掘技术可以从大量的病历数据中发现疾病的发病规律、治疗效果与药物之间的关系等,帮助医生制定更合理的治疗方案。 在疾病诊断与预测领域,医学建模能够建立各种疾病的数学模型,模拟疾病的发生发展过程,辅助医生进行疾病的早期诊断和预测

AI的提示词专栏:Prompt 驱动的结构化抽取,从文本中提取表格

AI的提示词专栏:Prompt 驱动的结构化抽取,从文本中提取表格

AI的提示词专栏:Prompt 驱动的结构化抽取,从文本中提取表格 本文围绕 Prompt 驱动的结构化抽取展开,先阐述其价值 —— 解决传统人工整理效率低、代码开发场景适应性差的痛点,借助大语言模型实现非结构化文本到表格的高效转化。接着解析核心概念,明确结构化抽取三要素及 Prompt 的赋能逻辑,随后提供基础版(适简单文本)、进阶版(适复杂文本)、优化版(适专业文本)三类 Prompt 设计框架,搭配实战案例说明操作要点。还通过内容创作、电商运营、学术研究三个跨场景案例,给出行业适配技巧,并针对字段遗漏、信息错误等六类常见问题提供解决方案。最后总结核心知识点,推荐工具与技术趋势,设计课后练习,助力读者掌握从简单到复杂场景的结构化抽取技巧。 人工智能专栏介绍     人工智能学习合集专栏是 AI 学习者的实用工具。它像一个全面的 AI 知识库,把提示词设计、AI 创作、智能绘图等多个细分领域的知识整合起来。无论你是刚接触 AI 的新手,还是有一定基础想提升的人,