目标检测数据集——无人机视觉VisDrone数据集

优质文章学习记录

07 Apr 2026 — 4 min read

随着无人机技术的飞速发展，无人机在航拍、监控、农业、物流等领域的应用日益广泛。与此同时，无人机视角下的视觉任务，如目标检测、目标跟踪和场景理解，也成为了计算机视觉研究的热点。然而，相比传统的地面视角数据集，无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战，这对现有算法提出了更高的要求。

为了应对这些挑战并推动无人机视觉技术的发展，天津大学机器学习与数据挖掘实验室推出了 VisDrone数据集。作为一个大规模、标注精细的无人机视觉数据集，VisDrone 不仅涵盖了丰富的场景和多样化的目标类别，还为研究人员提供了一个极具挑战性的测试平台。无论是小目标检测的精度提升，还是密集场景下的鲁棒性优化，VisDrone 都成为了学术界和工业界不可或缺的资源。该数据集采集自中国14个不同城市，覆盖复杂城市场景、交通枢纽、密集人群等多种环境。

VisDrone官方Github下载渠道可点击访问：

https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file

下载的数据集为VisDrone2019-DET-train，VisDrone2019-DET-val，VisDrone2019-DET-test-dev均含有标注，VisDrone2019-DET-test-challenge不含标注因此不在本文处理好的数据集中。

训练集：6,471张图像
验证集：548张图像
测试集：1610张图像

下载下来的原始数据集为jpg+txt文件，这里的txt不是yolo训练可用的txt文件，需要对数据处理后才能使用。这里我提供一个处理好的可直接用于目标检测训练的jpg+xml+txt文件。图片有两个文件夹，分别为原图和覆盖白色方块的图，可自行选择使用。

官方共有12个分类，分别为：

其中ignored regions为忽略的区域，有些区域包含了密集的很小的目标，无法进行标注的，所以我们要把这个区域忽视掉。因此对于这部分内容我们将这个区域从图片中覆盖白色方块进行遮挡。效果如下图。

带有白色方块及标注框的效果如下图

同样我提供了覆盖白色方块的图片和未覆盖白色方块的图片，需要用哪个可自行选择使用。

others忽略掉，因此转换后的类别共有10类，分别为：

["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]

即获取的YOLO格式的类别顺序为上述顺序。

下图为训练过程中部分图像

下图为验证过程中部分图像

训练使用原图进行训练，整体精度在0.4左右。覆盖了白色方块的精度可自行测试精度。

下载数据集可以访问官网获取原始数据集：Github

需要处理后的数据集可通过 V🔍：笑脸惹桃花获取。

Read more

Qwen-Image-2512 V2版 - 细节拉满，更真实的AI绘画体验 ComfyUI+WebUI 一键整合包下载

Qwen-Image-2512 V2版 - 细节拉满，更真实的AI绘画体验 ComfyUI+WebUI 一键整合包下载

Qwen-Image-2512 是 Qwen-Image 文生图基础模型的 12 月更新版本，这是一个最新的文本生成图像模型，特点是画面更真实、细节更精致，提升了人物与自然细节的真实感，适合在创意设计、教育展示、内容生产等领域使用。今天分享的 Qwen-Image-2512 V2版一键包基于阿里最新开源的 Qwen-Image-2512 的FP8量化版（同时支持BF16），支持消费级显卡最低12G显存流畅运行，支持更适合小白操作的WebUI模式和专业选手的ComfyUI两种模式。相比较上个版本，V2版因使用精度更高的FP8模型，所以在生成效果上更好，同时对硬件的要求也更高，大家根据需要选择适合自己的版本。下载地址：点此下载模型特点更真实的人物表现：相比旧版本，人物的面部细节、表情和环境都更自然，不再有明显的“AI感”。更精细的自然细节：风景、动物毛发、水流等元素渲染更逼真，层次感更强。更准确的文字渲染：在生成带文字的图像（如海报、PPT）时，排版和字体更清晰，图文融合更好。更强的整体性能：

在 Mac Mini M4 上本地跑大模型（Ollama + Llama + ComfyUI + Stable Diffusion ｜ Flux）

在 Mac Mini M4 上本地跑大模型（Ollama + Llama + ComfyUI + Stable Diffusion ｜ Flux）

Mac Mini M4 配备了苹果自家研发的 M1/M2/M4 芯片，具有强大的处理能力，能够支持本地跑一些大模型，尤其是在使用如 Ollama、Llama、ComfyUI 和 Stable Diffusion 这类 AI 相关工具时，性能表现非常好。本教程将指导你如何在 Mac Mini M4 上本地部署并运行这些大模型，涵盖从环境搭建到使用的全流程。一、准备工作 1. 确保系统更新确保你的 macOS 版本已更新到最新的版本（例如 macOS 13.0 以上），这将确保兼容性和性能。安装 Homebrew（macOS 包管理工具） Homebrew 是 macOS 上非常流行的包管理工具，它帮助你方便地安装各种软件。在终端中输入以下命令来安装

大模型与AIGC概述：从技术原理到产业爆发

大模型与AIGC概述：从技术原理到产业爆发在人工智能发展的浪潮中，大模型与AIGC（人工智能生成内容）正以前所未有的速度重塑我们的工作方式、内容创作模式乃至整个社会结构。本文基于张敏老师《大模型与AIGC概述》的系统性讲解，全面梳理大模型的定义、发展历程、核心技术原理以及AIGC的内涵与前景，帮助读者建立对这一前沿领域的体系化认知。一、大模型是什么？ 2022年11月底，OpenAI发布ChatGPT，仅用一个月时间就突破1亿活跃用户，引爆全球AI热潮。自此，“万模大战”拉开序幕——全球科技巨头纷纷推出自己的大模型。 1. 定义大模型通常指： * 参数规模超百亿的深度神经网络语言模型； * 在海量无标注文本上通过自监督学习进行预训练； * 能够通过微调或提示（Prompt）适配广泛下游任务。更广义地，它也被称为“基础模型”（Foundation Models），不仅限于自然语言，还能处理图像、音频等多模态数据。 2. 核心特性 * 大规模参数与数据：如GPT-3拥有1750亿参数； * 涌现能力：展现出上下文学习、思维链（Chain-of-Thou

Unity语音识别技术终极突破：本地化Whisper解决方案深度解析

Unity语音识别技术终极突破：本地化Whisper解决方案深度解析【免费下载链接】whisper.unityRunning speech to text model (whisper.cpp) in Unity3d on your local machine. 项目地址: https://gitcode.com/gh_mirrors/wh/whisper.unity 在当今语音交互需求日益增长的背景下，Unity开发者面临着如何在游戏和应用中实现高质量语音识别的挑战。传统的云端语音识别方案存在延迟高、隐私泄露风险、网络依赖性强等痛点。Whisper.unity项目的出现，为这一难题提供了革命性的本地化解决方案。技术原理深度剖析 Whisper.unity基于OpenAI开源的Whisper语音识别模型，通过C++原生库集成到Unity引擎中。该项目采用ggml量化技术，将原本需要数GB存储空间的模型压缩到几百MB，同时保持出色的识别精度。核心技术创新点： * 完全本地化运行，无需网络连接 * 支持60多种语言的语音识别和翻译 * 跨平台兼容性，覆盖主流操作系