目标检测数据集——无人机视觉VisDrone数据集

优质文章学习记录

07 Apr 2026 — 4 min read

随着无人机技术的飞速发展，无人机在航拍、监控、农业、物流等领域的应用日益广泛。与此同时，无人机视角下的视觉任务，如目标检测、目标跟踪和场景理解，也成为了计算机视觉研究的热点。然而，相比传统的地面视角数据集，无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战，这对现有算法提出了更高的要求。

为了应对这些挑战并推动无人机视觉技术的发展，天津大学机器学习与数据挖掘实验室推出了 VisDrone数据集。作为一个大规模、标注精细的无人机视觉数据集，VisDrone 不仅涵盖了丰富的场景和多样化的目标类别，还为研究人员提供了一个极具挑战性的测试平台。无论是小目标检测的精度提升，还是密集场景下的鲁棒性优化，VisDrone 都成为了学术界和工业界不可或缺的资源。该数据集采集自中国14个不同城市，覆盖复杂城市场景、交通枢纽、密集人群等多种环境。

VisDrone官方Github下载渠道可点击访问：

https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file

下载的数据集为VisDrone2019-DET-train，VisDrone2019-DET-val，VisDrone2019-DET-test-dev均含有标注，VisDrone2019-DET-test-challenge不含标注因此不在本文处理好的数据集中。

训练集：6,471张图像
验证集：548张图像
测试集：1610张图像

下载下来的原始数据集为jpg+txt文件，这里的txt不是yolo训练可用的txt文件，需要对数据处理后才能使用。这里我提供一个处理好的可直接用于目标检测训练的jpg+xml+txt文件。图片有两个文件夹，分别为原图和覆盖白色方块的图，可自行选择使用。

官方共有12个分类，分别为：

其中ignored regions为忽略的区域，有些区域包含了密集的很小的目标，无法进行标注的，所以我们要把这个区域忽视掉。因此对于这部分内容我们将这个区域从图片中覆盖白色方块进行遮挡。效果如下图。

带有白色方块及标注框的效果如下图

同样我提供了覆盖白色方块的图片和未覆盖白色方块的图片，需要用哪个可自行选择使用。

others忽略掉，因此转换后的类别共有10类，分别为：

["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]

即获取的YOLO格式的类别顺序为上述顺序。

下图为训练过程中部分图像

下图为验证过程中部分图像

训练使用原图进行训练，整体精度在0.4左右。覆盖了白色方块的精度可自行测试精度。

下载数据集可以访问官网获取原始数据集：Github

需要处理后的数据集可通过 V🔍：笑脸惹桃花获取。

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践 * 0. 前言 * 1. 基于扩散模型的文本生成图像 * 2. 将文本输入编码为嵌入向量 * 3. 条件 UNet 模型中的文本数据融合机制 * 4. 使用 Stable Diffusion 模型生成图像 * 相关链接 0. 前言在本节中，我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程，实现从"纯噪声+文本"生成图像，而不仅是从纯噪声生成。 1. 基于扩散模型的文本生成图像在扩散模型的 UNet 模型训练流程中，我们仅训练模型从含噪图像中预测噪声。为实现文生图功能，需使用以下架构，将文本作为额外输入注入 UNet 模型：这样的 UNet 模型称为条件 UNet 模型，或者更精确地说，是文本条件 UNet

Android WebRTC 实战：如何优化实时音视频传输效率

快速体验在开始今天关于 Android WebRTC 实战：如何优化实时音视频传输效率的探讨之前，我想先分享一个最近让我觉得很有意思的全栈技术挑战。我们常说 AI 是未来，但作为开发者，如何将大模型（LLM）真正落地为一个低延迟、可交互的实时系统，而不仅仅是调个 API？这里有一个非常硬核的动手实验：基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。从0到1构建生产级别应用，脱离Demo，点击打开从0打造个人豆包实时通话AI动手实验 Android WebRTC 实战：如何优化实时音视频传输效率在移动端实时音视频通信场景中，Android 开发者常面临三大核心挑战：平均端到端延迟超过 400ms 时用户体验显著下降，

从Web到AI：多模态Agent图像识别Skills开发实战——JavaScript+Python全栈图像处理方案

图片来源网络，侵权联系删。文章目录 * 1. 当Web图像处理遇见多模态Agent * 2. Web图像处理与Agent Skills的基因同源性 * 2.1 能力映射表（Web→图像Skills） * 2.2 图像Skills架构全景图 * 3. 图像识别核心原理（Web开发者视角） * 3.1 三大核心机制映射表 * 3.2 预处理流水线实现（类比CSS滤镜） * 3.3 后端推理服务设计（类比Express中间件） * 4. 企业级实战：电商商品瑕疵检测系统 * 4.1 项目结构（全栈设计） * 4.2 核心缺陷检测组件（Vue3 + TensorFlow.js） * 4.3 后端资源调度优化（解决高并发问题） * 5. Web开发者转型图像Skills的痛点解决方案 * 5.

内网渗透进阶——ctfshow靶场web859_有跳板机详细横向教程(只有内网主机，无跳板机如何出网，SCP传输文件，代码审计)

今天给大家带来一篇ctfshow靶场的内网横向教程；设计知识点：文章目录 * 靶场介绍 * 信息收集过程 * 尝试搭建socks代理（失败） * 渗透第一台主机（利用服务漏洞） * 内网SSH本地端口转发（新方法） * 方法一：搭建单层代理（失败） * 原理说明 * 方法二：搭建二层代理（成功） * 第一步：在 VPS 上建立第一级隧道 * 第二步：在本地 PC 上建立第二级隧道 * 第三步：验证与访问 * 方法三：使用profixier(成功) * 方法四：使用插件Proxy SwitchyOmega 3（成功） * 渗透第二台主机（代码审计） * 代码审计：SQL注入 * 代码审计：反序列化漏洞 (PHP Deserialization) * 第一步：先将以下内容写到一个exp.php里： * 第二步：然后打开php.ini,

Read more

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

Android WebRTC 实战：如何优化实时音视频传输效率

从Web到AI：多模态Agent图像识别Skills开发实战——JavaScript+Python全栈图像处理方案

内网渗透进阶——ctfshow靶场web859_有跳板机详细横向教程(只有内网主机，无跳板机如何出网，SCP传输文件，代码审计)