目标检测数据集——无人机视觉VisDrone数据集

目标检测数据集——无人机视觉VisDrone数据集

随着无人机技术的飞速发展,无人机在航拍、监控、农业、物流等领域的应用日益广泛。与此同时,无人机视角下的视觉任务,如目标检测、目标跟踪和场景理解,也成为了计算机视觉研究的热点。然而,相比传统的地面视角数据集,无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战,这对现有算法提出了更高的要求。

为了应对这些挑战并推动无人机视觉技术的发展,天津大学机器学习与数据挖掘实验室推出了 VisDrone数据集。作为一个大规模、标注精细的无人机视觉数据集,VisDrone 不仅涵盖了丰富的场景和多样化的目标类别,还为研究人员提供了一个极具挑战性的测试平台。无论是小目标检测的精度提升,还是密集场景下的鲁棒性优化,VisDrone 都成为了学术界和工业界不可或缺的资源。该数据集采集自中国14个不同城市,覆盖复杂城市场景、交通枢纽、密集人群等多种环境。

VisDrone官方Github下载渠道可点击访问:

https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file

下载的数据集为VisDrone2019-DET-train,VisDrone2019-DET-val,VisDrone2019-DET-test-dev均含有标注,VisDrone2019-DET-test-challenge不含标注因此不在本文处理好的数据集中。

  • 训练集:6,471张图像
  • 验证集:548张图像
  • 测试集:1610张图像

下载下来的原始数据集为jpg+txt文件,这里的txt不是yolo训练可用的txt文件,需要对数据处理后才能使用。 这里我提供一个处理好的可直接用于目标检测训练的jpg+xml+txt文件。图片有两个文件夹,分别为原图和覆盖白色方块的图,可自行选择使用。

官方共有12个分类,分别为:

其中ignored regions为忽略的区域,有些区域包含了密集的很小的目标,无法进行标注的,所以我们要把这个区域忽视掉。因此对于这部分内容我们将这个区域从图片中覆盖白色方块进行遮挡。效果如下图。

带有白色方块及标注框的效果如下图

同样我提供了覆盖白色方块的图片和未覆盖白色方块的图片,需要用哪个可自行选择使用。

others忽略掉,因此转换后的类别共有10类,分别为:

["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]

即获取的YOLO格式的类别顺序为上述顺序。

下图为训练过程中部分图像

下图为验证过程中部分图像

训练使用原图进行训练,整体精度在0.4左右。覆盖了白色方块的精度可自行测试精度。

下载数据集可以访问官网获取原始数据集:Github

需要处理后的数据集可通过 V🔍:笑脸惹桃花 获取。

Read more

Qwen3-32B显存溢出?量化压缩部署实战让资源节省40%

Qwen3-32B显存溢出?量化压缩部署实战让资源节省40% 你是不是也遇到过这种情况:好不容易找到一个性能强大的大模型,比如Qwen3-32B,结果一部署就发现显存不够用,直接报错“Out of Memory”?看着那动辄几十GB的显存需求,再看看自己有限的显卡资源,是不是感觉心都凉了半截? 别急着放弃。今天我就来分享一个实战技巧——通过量化压缩技术,让你在有限的硬件资源上,也能流畅运行Qwen3-32B这样的“大块头”。经过实测,这个方法能让模型显存占用减少40%以上,而性能损失却微乎其微。 1. 为什么Qwen3-32B会“吃”掉那么多显存? 在开始动手之前,我们先得搞清楚问题出在哪。Qwen3-32B是一个拥有320亿参数的庞然大物,它的“大”主要体现在两个方面: 1.1 参数规模带来的直接负担 模型参数越多,需要存储的数据量就越大。Qwen3-32B的320亿参数,如果都用32位浮点数(FP32)来存储,光是参数本身就需要大约128GB的存储空间。这还没算上推理过程中需要的中间计算结果(激活值)和优化器状态。 1.2 推理过程中的内存开销 模型在运行时,

【前端地图】地理编码与逆地理编码 —— 让地址和坐标不再“鸡同鸭讲”

【前端地图】地理编码与逆地理编码 —— 让地址和坐标不再“鸡同鸭讲”

🌏第 7 节:地理编码与逆地理编码 —— 让地址和坐标不再“鸡同鸭讲” 🎙️ 一、 老曹引言:地址与坐标的“爱恨情仇” 🗣️ 各位同学好,我是老曹。今天咱们来聊第 7 节,地理编码与逆地理编码。说实话,这玩意儿在地图开发里属于“看似简单,实则坑深似海”的类型。你们是不是觉得,不就是把“成都市青羊区”变成一串数字,或者把一串数字变回“成都市青羊区”吗?太天真了!在实际项目中,我见过太多因为坐标系没搞对,导致物流配送员对着地图上的标记点骂娘,明明就在楼下,导航非让他去河里捞船。这节内容,就是为了让你们少挨骂,少加班,把地址和坐标之间的翻译工作做得明明白白。 🤔 很多新人刚上手地图 SDK 的时候,最喜欢干的事就是直接调用 geocoder.getLocation,然后指望它能返回一个精准无比的 coordinate。结果呢?高德的坐标放到百度地图上,偏移了几百米;或者在国内用了

5分钟部署通义千问2.5-7B:vLLM+WebUI零配置AI对话方案

5分钟部署通义千问2.5-7B:vLLM+WebUI零配置AI对话方案 1. 为什么选这个镜像?一句话说清价值 你是不是也遇到过这些情况: * 想试试最新版的通义千问,但光是装环境就卡在CUDA版本、transformers冲突、gradio报错上? * 下载完28GB模型文件,发现显存不够,RTX 3060直接“内存不足”报红? * 配置完vLLM又得搭WebUI,改端口、调参数、修权限,最后连登录页面都打不开? 别折腾了。这个镜像就是为“不想折腾”的人准备的——它不是教你一步步编译安装的教程,而是一键启动就能用的完整对话系统。 它把三件事全做完了: 用vLLM加载Qwen2.5-7B-Instruct(支持128K上下文、工具调用、JSON强制输出) 集成Open WebUI(带用户管理、会话保存、多模型切换、响应流式显示) 预置优化配置(AWQ量化版仅4GB,RTX 3060/4060/4070都能跑,实测生成速度>100 tokens/

根据设计图生成前端代码,零基础入门到精通,收藏这篇就够了

根据设计图生成前端代码,零基础入门到精通,收藏这篇就够了

在现代前端开发中,从设计稿到可用页面的交付往往需要大量重复劳动:切图、手写样式、布局调整……而借助 MCP Server - Figma AI Bridge,我们可以将 Figma 设计稿自动转换成整洁的 HTML/CSS/JS 代码,并立即生成可预览的网页。一键化、傻瓜式操作,让设计交付效率跃升。 本文测试使用的系统环境如下: * Trae IDE 版本:2.4.5 * macOS 版本:14.7 * Node.js 版本:24.6.0 * npx 版本:11.5.2 * Python 版本:3.13.3