目标检测数据集——无人机视觉VisDrone数据集

优质文章学习记录

09 Apr 2026 — 4 min read

随着无人机技术的飞速发展，无人机在航拍、监控、农业、物流等领域的应用日益广泛。与此同时，无人机视角下的视觉任务，如目标检测、目标跟踪和场景理解，也成为了计算机视觉研究的热点。然而，相比传统的地面视角数据集，无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战，这对现有算法提出了更高的要求。

为了应对这些挑战并推动无人机视觉技术的发展，天津大学机器学习与数据挖掘实验室推出了 VisDrone数据集。作为一个大规模、标注精细的无人机视觉数据集，VisDrone 不仅涵盖了丰富的场景和多样化的目标类别，还为研究人员提供了一个极具挑战性的测试平台。无论是小目标检测的精度提升，还是密集场景下的鲁棒性优化，VisDrone 都成为了学术界和工业界不可或缺的资源。该数据集采集自中国14个不同城市，覆盖复杂城市场景、交通枢纽、密集人群等多种环境。

VisDrone官方Github下载渠道可点击访问：

https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file

下载的数据集为VisDrone2019-DET-train，VisDrone2019-DET-val，VisDrone2019-DET-test-dev均含有标注，VisDrone2019-DET-test-challenge不含标注因此不在本文处理好的数据集中。

训练集：6,471张图像
验证集：548张图像
测试集：1610张图像

下载下来的原始数据集为jpg+txt文件，这里的txt不是yolo训练可用的txt文件，需要对数据处理后才能使用。这里我提供一个处理好的可直接用于目标检测训练的jpg+xml+txt文件。图片有两个文件夹，分别为原图和覆盖白色方块的图，可自行选择使用。

官方共有12个分类，分别为：

其中ignored regions为忽略的区域，有些区域包含了密集的很小的目标，无法进行标注的，所以我们要把这个区域忽视掉。因此对于这部分内容我们将这个区域从图片中覆盖白色方块进行遮挡。效果如下图。

带有白色方块及标注框的效果如下图

同样我提供了覆盖白色方块的图片和未覆盖白色方块的图片，需要用哪个可自行选择使用。

others忽略掉，因此转换后的类别共有10类，分别为：

["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]

即获取的YOLO格式的类别顺序为上述顺序。

下图为训练过程中部分图像

下图为验证过程中部分图像

训练使用原图进行训练，整体精度在0.4左右。覆盖了白色方块的精度可自行测试精度。

下载数据集可以访问官网获取原始数据集：Github

需要处理后的数据集可通过 V🔍：笑脸惹桃花获取。

用老 Mac 跑本地 AI：OpenClaw 环境一键搭建

用老 Mac 跑本地 AI：OpenClaw 环境一键搭建老款 Mac 可以通过一键搭建 OpenClaw 环境，快速部署本地 AI 服务。本文将详细介绍如何使用自动化脚本一键搭建 OpenClaw 环境，让老 Mac 发挥余热，成为强大的本地 AI 工作站。一、硬件要求 1.1 最低配置组件最低配置推荐配置说明CPUIntel i3 第 3 代Intel i5 第 4 代及以上支持 VT-x/VT-d内存4GB8GB 或更高DDR3存储128GB SSD256GB SSD 或更高SATA 或 NVMe网络Wi-FiWi-Fi + 有线有线网络优先

ChatGPT 4：解锁AI文案、绘画与视频创作新纪元

文章目录 * 一、ChatGPT 4的技术革新 * 二、AI文案创作：精准生成与个性化定制 * 三、AI绘画艺术：从文字到图像的神奇转化 * 四、AI视频制作：自动化剪辑与创意实现 * 五、知识库与ChatGPT 4的深度融合 * 六、全新的变革和机遇 * 《ChatGPT 4 应用详解：AI文案＋AI绘画＋AI视频＋GPTs》 * 亮点 * 内容简介 * 作者简介 * 目录 * 获取方式 * 《Mindmaster思维导图实践》 * 亮点 * 内容简介 * 作者简介 * 获取方式随着人工智能技术的飞速发展，ChatGPT 4以其卓越的自然语言处理能力和强大的生成能力，正引领着AI应用的新一轮变革。特别是在文案创作、绘画艺术以及视频制作领域，ChatGPT 4展现出了非凡的潜力，为创作者们提供了一个全新的创作平台。本文将通过具体的代码示例，深入探讨ChatGPT 4在这些领域的应用与影响。一、ChatGPT 4的技术革新

半小时用OpenClaw搭一套AI量化系统：开源三件套实测分享

作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：见过太多人想用量化，却被各种复杂的代码和环境配置劝退。无论你是刚开始接触数据科学的学生，还是想提升自己投资工具箱的实践者，今天就把我用最近很火的OpenClaw如何搭建AI量化系统的过程完整分享给你。自从有了OpenClaw后，说实话，个人搭建一套量化系统没你想的那么难。半小时，三行代码，不花钱。一、先说效果：我一次跑通的回测先别急着看代码，咱们看看效果。用这套方案跑了一趟回测，最终跑出来的结果是 59%。当然，这是回测数据，不代表实盘收益，但足以说明这套开源工具链的潜力。你可能要问我这个收益是怎么算的。说白了就是：系统基于历史数据，按照你设定的策略规则模拟交易，最后算出来的年化结果。核心观点：回测收益 ≠ 实盘收益，但回测能帮你验证策略逻辑是否靠谱。二、开源三件套：数据 + 框架 + AI 这套方案的精髓在于开源三件套的组合搭配。用个表格梳理清楚：组件作用开源地址数据源选股基础数据供给长桥 SDK / AKshar

一个人就是一支影视团队：实测国内最强影视级 AI 视频创作平台 TapNow——告别抽卡，导演级精准控制

实测国内最强影视级 AI 视频平台 TapNow：告别“盲盒抽卡”，实现导演级精准调度在过去的一年里，文生视频赛道经历了爆发式增长。但对于真正需要将 AI 投入到生产环境中的创作者、产品经理和开发者来说，目前的 AI 视频工具普遍存在一个致命痛点——不可控。跑偏的物理规律、诡异的肢体形变、如同“开盲盒”般的提示词玄学，让很多原本充满创意的构想，最终沦为废弃的半成品。如果你也受够了这种低效的“抽卡式”创作，那么今天介绍的这款号称国内最强影视级 AI 视频创作平台——TapNow，或许能彻底重塑你的工作流。核心痛点突破：从“AI 幻觉”到真正的物理一致性技术社区的受众深知，评价一个 AI 视频大模型底座的强弱，不仅看它能生成多惊艳的单帧，更要看它在长镜头下的时空一致性。 TapNow 在底层架构上进行了深度优化，重点解决了以下三个核心问题： 1. 极高保真度的物理交互：无论是光影在水面的流动、烟雾的自然消散，

Read more

用老 Mac 跑本地 AI：OpenClaw 环境一键搭建

ChatGPT 4：解锁AI文案、绘画与视频创作新纪元

半小时用OpenClaw搭一套AI量化系统：开源三件套实测分享

一个人就是一支影视团队：实测国内最强影视级 AI 视频创作平台 TapNow——告别抽卡，导演级精准控制