Yolo11 基于DroneVehicle数据集的无人机视角下车辆目标检测

优质文章学习记录

07 Apr 2026 — 7 min read

1、关于DroneVehicle数据集介绍

DroneVenicle数据集是由天津大学收集、标注的大型无人机航拍车辆数据集。
DroneVehicle 数据集由无人机采集的共 56,878 幅图像组成，其中一半为 RGB 图像，其余为红外图像。我们对五个类别进行了带有方向性边界框的丰富标注。其中，汽车car 在 RGB 图像中有 389,779 个标注，在红外图像中有 428,086 个标注；卡车truck 在 RGB 图像中有 22,123 个标注，在红外图像中有 25,960 个标注；公交车bus 在 RGB 图像中有 15,333 个标注，在红外图像中有 16,590 个标注；面包车van 在 RGB 图像中有 11,935 个标注，在红外图像中有 12,708 个标注；货车freight car 在 RGB 图像中有 13,400 个标注，在红外图像中有 17,173 个标注。

2、DroneVehicle数据集下载

参见作者Github：https://github.com/VisDrone/DroneVehicle

3、DroneVehicle数据集处理

在 DroneVehicle 中，为了标注图片边界上的物体，作者在每张图片的上下左右四边设置了宽度为 100 像素的白色边框，这样下载的图片尺寸就是 840 x 712。在训练我们的检测网络时，我们可以进行预处理，去除周围的白色边框，并将图像尺寸改为 640 x 512。

处理前后对比。

去除白边代码：

import numpy as np import cv2 import os from tqdm import tqdm def create_file(output_dir_vi, output_dir_ir): if not os.path.exists(output_dir_vi): os.makedirs(output_dir_vi) if not os.path.exists(output_dir_ir): os.makedirs(output_dir_ir) print(f'Created folder:({output_dir_vi}); ({output_dir_ir})') def update(input_img_path, output_img_path): image = cv2.imread(input_img_path) cropped = image[100:612, 100:740] # 裁剪坐标为[y0:y1, x0:x1] cv2.imwrite(output_img_path, cropped) dataset_dir_vi = r'valimg' # 处理前可见光图片目录 output_dir_vi = r'valimg2' # 处理后可见光图片目录 dataset_dir_ir = r'valimgr' # 处理前红外光图片目录 output_dir_ir = r'valimgr2' # 处理后红外光图片目录 # 检查文件夹是否存在，如果不存在则创建 create_file(output_dir_vi, output_dir_ir) # 获得需要转化的图片路径并生成目标路径 image_filenames_vi = [(os.path.join(dataset_dir_vi, x), os.path.join(output_dir_vi, x)) for x in os.listdir(dataset_dir_vi)] image_filenames_ir = [(os.path.join(dataset_dir_ir, x), os.path.join(output_dir_ir, x)) for x in os.listdir(dataset_dir_ir)] # 转化所有图片 print('Start transforming vision images...') for path in tqdm(image_filenames_vi): update(path[0], path[1]) print('Start transforming infrared images...') for path in tqdm(image_filenames_ir): update(path[0], path[1])

4、制作Yolo目标检测需要的数据集文件

4.1、下载DroneVehicle的coco格式的检测框标签文件

4.2、通过标注软件将coco格式的标签文件转为VOC格式的标签文件

这里我用的是X-AnyLabeling作为标注软件。

4.3、处理VOC格式的标签文件并转成Yolo格式的标签文件

处理该数据集标签文件时发现部分检测框的位置可能会在图片边缘外面，导致直接转成YOLO的时候，会出现负坐标或者大于1的坐标值，这样会导致模型训练不了或者存在一定问题，所以对该部分检测框在转换时需进行特殊处理。注意：X-AnyLabeling也可以直接导出YOLO格式标签，但是经测试X-AnyLabeling也没有处理大于1的坐标值。

xml2txt.py

import xml.etree.ElementTree as ET import shutil import os import imagesize # 定义识别目标或类集合 object = 'datasets' # 根据自定义的数据集名称 if os.path.exists("./%s/labels/"%object): # 如果文件存在 shutil.rmtree("./%s/labels/"%object) os.makedirs("./%s/labels/"%object) else: os.makedirs("./%s/labels/"%object) sets = ['train', 'val'] # 修改类别(自定义) classes =["car", "truck", "bus", "van", "freight_car"] def convert(size, box): # 坐标信息归一化至0-1 dw = 1. / size[0] dh = 1. / size[1] x = (box[0] + box[1]) / 2.0 y = (box[2] + box[3]) / 2.0 w = box[1] - box[0] h = box[3] - box[2] x = x * dw w = w * dw y = y * dh h = h * dh return (x, y, w, h) def convert_annotation(image_id): in_file = open('./%s/xml/%s.xml' % (object,image_id)) # xml文件 out_file = open('./%s/labels/%s.txt' % (object,image_id), 'w') # txt文件 image_file = open('./%s/images/%s.jpg' % (object,image_id)) # pic文件 print("in_file,",in_file) tree = ET.parse(in_file) # f = open(in_file.name,encoding="utf-8") # tree = ET.parse(f) root = tree.getroot() size = root.find('size') # 这里的width 和 height 在Autolabelimg下自动标注可能会被修改，需替换成图片的真实宽高 # w = int(size.find('width').text) # h = int(size.find('height').text) w, h = imagesize.get(image_file.name) for obj in root.iter('object'): difficult = obj.find('difficult').text cls = obj.find('name').text if cls not in classes or int(difficult) == 1: continue cls_id = classes.index(cls) # 类别序号 xmlbox = obj.find('bndbox') xmin = float(xmlbox.find('xmin').text) xmin = xmin if xmin >= 0 else 0.0 # 左上角x坐标如果小于0都化成0 xmax = float(xmlbox.find('xmax').text) xmax = xmax if xmax <= w else float(w) # 右下角x坐标如果大于图片宽度了都为图片宽度值 ymin = float(xmlbox.find('ymin').text) ymin = ymin if ymin >= 0 else 0.0 # 左上角y坐标如果小于0都化成0 ymax = float(xmlbox.find('ymax').text) ymax = ymax if ymax <= h else float(h) # 右下角y坐标如果大于图片高度了都为图片高度值 b = (xmin,xmax ,ymin ,ymax) bb = convert((w, h), b) # 归一化 out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n') for image_set in sets: if not os.path.exists('./%s/labels/'%object): os.makedirs('./%s/labels/'%object) image_ids = open('./%s/ImageSets/%s.txt' % (object,image_set)).read().strip().split() list_file = open('./%s/%s.txt' % (object,image_set), 'w') for image_id in image_ids: list_file.write('./images/%s.jpg\n' % (image_id)) # 要注意图片的后缀名是什么 convert_annotation(image_id) list_file.close()

4.4、按上述步骤处理train、val、test三个数据集文件

我在这里只处理可见光部分的数据集，红外光数据集处理跟该处理方式相同。
我的处理思路：
1）因为不需要测试集，所以我将val验证集的1469个数据和test测试集8980个数据的20%的数据作为我的验证集，即1469+8980*0.2=3265个数据验证集。
2）将train训练集的17990个数据和test测试集8980个数据的80%的数据作为我的训练集，即17990+8980*0.8=25174个数据训练集。
3）整理我的训练集和验证集

此时数据集已是YOLO格式，可以直接训练。

5、在Yolo11网络中训练

我选择了yolo11s的网络权重进行模型训练，训练100个epoch结果如下：

可以看到训练结果还不错。

验证集上标签可视化：

6、使用训练好的模型进行预测

第一张图片是val验证集中找的，第二张图片是网络上随便找的，检测结果比较理想。

7、结语及注意事项

虽然从训练结果上看效果还不错，但是仅针对于该种无人机航拍视角下，如果是斜视视角则效果较差。其次红外光下的检测效果目前还没测过，以及可见光和红外光融合检测效果也未经测试。

需要注意的点：处理白边、处理在图片边缘外的检测框问题。

Stable Diffusion XL 1.0风格迁移：灵感画廊‘宣纸色调UI’启发的中式美学生成实践

Stable Diffusion XL 1.0风格迁移：灵感画廊‘宣纸色调UI’启发的中式美学生成实践最近在探索AI绘画的边界时，我遇到了一个名为“灵感画廊”的Stable Diffusion XL 1.0应用。它最吸引我的不是其强大的生成能力，而是它那套独特的“宣纸色调UI”设计语言。这种设计将冰冷的AI工具界面，转化为一个充满东方美学意境的创作空间，让我不禁思考：我们能否将这种视觉风格本身，作为一种“风格”迁移到AI生成的画作中？今天，我就来分享一次基于“灵感画廊”UI美学启发的风格迁移实践。我们将不局限于使用预设的艺术风格，而是尝试捕捉并复现其界面设计背后的中式美学逻辑，让SDXL 1.0生成的作品也带上那份“宣纸色调”的静谧与“衬线字体”的雅致感。 1. 灵感解析：从界面到美学内核 “灵感画廊”的界面设计并非简单的皮肤更换，它背后蕴含了一套完整的美学逻辑。要迁移这种风格，我们首先要解构它。 1.1

终极对决！文心一言 vs 通义千问 vs Kimi vs 豆包，四大国产巨头正面硬刚，技术、性能、生态全方位拆解！

写在前面上周我们对比了一下目前最流行的AI工具，不过三款工具都是国外的，对于国内用户来说，有些需要一些魔法才能访问，终究是有些不便。最近身边越来越多人问我：国产AI到底选哪个？文心一言、通义千问、Kimi、豆包……看着都差不多，但用起来又各有千秋。说实话，我自己也是这四款都在用。文心一言帮我写文案，Kimi帮我整理资料，豆包拿来写代码等。有个挺有意思的消息：苹果在中国选了通义千问和文心一言做合作伙伴，要把它们整合进 Siri。虽然不知道能整合成啥样，但至少说明国产AI这两年确实长进不少。这篇文章我会从实际使用感受出发，聊聊这四款工具到底怎么样、适合什么场景，顺便吐槽一下各自的坑。毕竟用AI嘛，最重要的是找到适合自己的那一款。一、四大主流AI大模型概览文心一言 4.0（百度）先说文心一言，这是我用得最早的国产AI。最大的感受就是文笔确实好，写出来的东西有点"文绉绉"的味道，特别适合写公众号文章、营销文案这类需要点文采的内容。百度把自家搜索引擎接进去了，所以查实时信息还挺方便。支持128K的上下文，

GitHub Copilot Pro 学生认证免费订阅及VS Code集成完整教程

GitHub Copilot Pro 学生认证免费订阅及VS Code集成完整教程一、学生认证资格与前期准备 1.1 认证资格要求 GitHub Copilot Pro 为经官方验证的全日制学生、在职教师及热门开源项目维护者提供免费订阅权限。认证需满足以下核心条件： * 学生需提供有效学籍证明（学生卡/学信网认证） * 教师需提供工作证/教师资格证 * 使用学校官方邮箱（以.edu或.edu.cn结尾） * 账户需通过双重身份认证（2FA） 1.2 账户设置准备 1. 绑定教育邮箱在GitHub账户设置中添加学校邮箱，并完成验证： * 进入Settings → Emails → Add email address * 输入形如[email protected]的邮箱 * 登录学校邮箱查收验证邮件并确认 2. 完善个人信息在Profile → Edit profile中填写：

Whisper语音识别：本地部署的终极完整指南

想要在个人电脑上实现专业级的语音转文字功能吗？OpenAI Whisper作为当前最先进的语音识别模型，能够在完全离线的环境中将音频内容精准转换为文字，支持多语言识别，特别适合需要隐私保护的会议记录、学习笔记整理等场景。【免费下载链接】whisper-base.en 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-base.en 核心价值：为什么Whisper值得选择与传统语音识别方案相比，Whisper具备革命性的技术突破。其基于深度学习训练，准确率可达98%以上，支持99种语言的语音识别和翻译功能。更重要的是，所有处理都在本地设备完成，无需上传云端，确保敏感内容的绝对安全。环境准备与前置条件在开始安装前，请确保设备满足以下基础要求： * 操作系统：Windows 10/11、macOS 10.15+ 或 Linux * Python环境：Python 3.8 及以上版本 * 音频处理工具：