目标检测数据集——无人机视觉VisDrone数据集

优质文章学习记录

10 Apr 2026 — 4 min read

随着无人机技术的飞速发展，无人机在航拍、监控、农业、物流等领域的应用日益广泛。与此同时，无人机视角下的视觉任务，如目标检测、目标跟踪和场景理解，也成为了计算机视觉研究的热点。然而，相比传统的地面视角数据集，无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战，这对现有算法提出了更高的要求。

为了应对这些挑战并推动无人机视觉技术的发展，天津大学机器学习与数据挖掘实验室推出了 VisDrone数据集。作为一个大规模、标注精细的无人机视觉数据集，VisDrone 不仅涵盖了丰富的场景和多样化的目标类别，还为研究人员提供了一个极具挑战性的测试平台。无论是小目标检测的精度提升，还是密集场景下的鲁棒性优化，VisDrone 都成为了学术界和工业界不可或缺的资源。该数据集采集自中国14个不同城市，覆盖复杂城市场景、交通枢纽、密集人群等多种环境。

VisDrone官方Github下载渠道可点击访问：

https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file

下载的数据集为VisDrone2019-DET-train，VisDrone2019-DET-val，VisDrone2019-DET-test-dev均含有标注，VisDrone2019-DET-test-challenge不含标注因此不在本文处理好的数据集中。

训练集：6,471张图像
验证集：548张图像
测试集：1610张图像

下载下来的原始数据集为jpg+txt文件，这里的txt不是yolo训练可用的txt文件，需要对数据处理后才能使用。这里我提供一个处理好的可直接用于目标检测训练的jpg+xml+txt文件。图片有两个文件夹，分别为原图和覆盖白色方块的图，可自行选择使用。

官方共有12个分类，分别为：

其中ignored regions为忽略的区域，有些区域包含了密集的很小的目标，无法进行标注的，所以我们要把这个区域忽视掉。因此对于这部分内容我们将这个区域从图片中覆盖白色方块进行遮挡。效果如下图。

带有白色方块及标注框的效果如下图

同样我提供了覆盖白色方块的图片和未覆盖白色方块的图片，需要用哪个可自行选择使用。

others忽略掉，因此转换后的类别共有10类，分别为：

["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]

即获取的YOLO格式的类别顺序为上述顺序。

下图为训练过程中部分图像

下图为验证过程中部分图像

训练使用原图进行训练，整体精度在0.4左右。覆盖了白色方块的精度可自行测试精度。

下载数据集可以访问官网获取原始数据集：Github

需要处理后的数据集可通过 V🔍：笑脸惹桃花获取。

Read more

llama.cpp本地部署性能调优指南：从启动瓶颈到推理效率的全方位优化

llama.cpp本地部署性能调优指南：从启动瓶颈到推理效率的全方位优化【免费下载链接】llama.cppPort of Facebook's LLaMA model in C/C++ 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp 在本地部署大语言模型时，你是否经常遇到启动缓慢、资源占用过高的问题？模型加载时间过长不仅影响开发效率，更会降低用户体验。本文将通过"问题诊断→核心原理→分级优化→场景适配"的框架，帮助你系统性解决llama.cpp的启动性能瓶颈，实现模型加载速度与资源占用的双重优化。我们将深入分析性能瓶颈的根本原因，提供分级优化策略，并针对不同使用场景给出定制化解决方案，让你的本地大模型部署既高效又稳定。问题诊断：llama.cpp启动性能瓶颈分析症状识别：常见性能问题表现启动llama.

《LLaMA-Factory WebUI 快速上手：常见模型加载问题解决技巧》

LLaMA-Factory WebUI 快速上手：常见模型加载问题解决技巧在人工智能领域，模型加载是使用大型语言模型的关键第一步。LLaMA-Factory作为一款开源工具，提供了直观的Web用户界面（WebUI），帮助用户轻松管理和部署模型。然而，许多新手在加载模型时遇到各种问题，导致效率低下或失败。本文将从快速上手开始，逐步介绍常见模型加载问题的解决技巧，确保您能顺利启动项目。文章基于实际经验原创撰写，内容实用可靠。一、LLaMA-Factory WebUI 快速入门 LLaMA-Factory的WebUI设计简洁，适合初学者快速掌握。以下是最基本的操作步骤： 1. 模型加载流程：在WebUI中： * 选择“模型加载”选项卡。 * 输入模型名称或路径（如 llama-2-7b）。 * 点击“加载”按钮。系统会自动处理依赖和配置。整个过程通常只需几分钟，界面会显示进度条和状态提示。首次使用建议：为节省时间，优先加载小型模型（如 llama-2-7b），避免资源占用过大。加载成功后，您可立即测试推理功能： # 示例代码：简单文本生成

旧电脑 Win7 复活计划：编译与运行 llama.cpp (Qwen3版)

旧电脑 Win7 复活计划：编译与运行 llama.cpp (Qwen3版)

🦕 旧电脑 Win7 复活计划：编译与运行 llama.cpp (Qwen3版) 这份指南专为不支持新版软件的 Windows 7 设计，通过本地编译实现大模型运行。手动编译可以获得最好的性能，不想自己手动编译可以直接使用下面编译好的bin文件，同时包含下面用到的相关软件和替换文件httplib.h 链接：https://pan.quark.cn/s/2c5f627c93d7 提取码：cSJh 📋 0. 软件版本清单请务必确保使用以下特定版本，以保证在 Win7 下的兼容性：软件名称文件名 (根据截图)作用备注编译环境w64devkit-x64-2.5.0.7z.exe提供 GCC 编译器核心工具构建工具cmake-3.31.10-windows-x86_64.msi生成编译配置必须安装到默认路径源码工具Git_for_Windows_(64bit)_v2.45.

AI绘画+电商：用图片和视频驱动未来电商

过去三年里，AI绘画从实验室走向大众，从简单模仿到艺术创作。如今，这项技术正悄然改变着一个万亿美元级的行业——电子商务。当AI绘画遇上电商，一场深刻的视觉革命正在拉开帷幕。视觉冲击力：电商转化的第一道门槛在电商平台上，消费者无法触摸实物，视觉呈现成为购买决策的关键因素。研究表明： * 高质量产品图能将转化率提升30-50% * 视频展示的商品比仅用图片的商品多获得157%的点击率 * 87%的线上消费者认为产品图片是购物决策的重要因素然而，高质量视觉内容的制作传统上面临三大挑战：成本高、周期长、创意匮乏。专业摄影、模特拍摄、后期修图，每个环节都需要大量时间和资金投入，对小企业和新兴品牌尤为不友好。 AI绘画技术：视觉内容的民主化革命 AI绘画技术的突破性进展正在改变这一局面。以Midjourney、Stable Diffusion、DALL-E 3为代表的一批AI绘画工具，让高质量视觉内容的创作变得前所未有地简单和高效。四大核心应用场景： 1. 产品视觉优化与扩展 * 一键生成专业级产品展示图 * 自动扩展产品使用场景（如咖啡机在不同厨房环境中的