目标检测数据集——无人机视觉VisDrone数据集

优质文章学习记录

06 Apr 2026 — 4 min read

随着无人机技术的飞速发展，无人机在航拍、监控、农业、物流等领域的应用日益广泛。与此同时，无人机视角下的视觉任务，如目标检测、目标跟踪和场景理解，也成为了计算机视觉研究的热点。然而，相比传统的地面视角数据集，无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战，这对现有算法提出了更高的要求。

为了应对这些挑战并推动无人机视觉技术的发展，天津大学机器学习与数据挖掘实验室推出了 VisDrone数据集。作为一个大规模、标注精细的无人机视觉数据集，VisDrone 不仅涵盖了丰富的场景和多样化的目标类别，还为研究人员提供了一个极具挑战性的测试平台。无论是小目标检测的精度提升，还是密集场景下的鲁棒性优化，VisDrone 都成为了学术界和工业界不可或缺的资源。该数据集采集自中国14个不同城市，覆盖复杂城市场景、交通枢纽、密集人群等多种环境。

VisDrone官方Github下载渠道可点击访问：

https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file

下载的数据集为VisDrone2019-DET-train，VisDrone2019-DET-val，VisDrone2019-DET-test-dev均含有标注，VisDrone2019-DET-test-challenge不含标注因此不在本文处理好的数据集中。

训练集：6,471张图像
验证集：548张图像
测试集：1610张图像

下载下来的原始数据集为jpg+txt文件，这里的txt不是yolo训练可用的txt文件，需要对数据处理后才能使用。这里我提供一个处理好的可直接用于目标检测训练的jpg+xml+txt文件。图片有两个文件夹，分别为原图和覆盖白色方块的图，可自行选择使用。

官方共有12个分类，分别为：

其中ignored regions为忽略的区域，有些区域包含了密集的很小的目标，无法进行标注的，所以我们要把这个区域忽视掉。因此对于这部分内容我们将这个区域从图片中覆盖白色方块进行遮挡。效果如下图。

带有白色方块及标注框的效果如下图

同样我提供了覆盖白色方块的图片和未覆盖白色方块的图片，需要用哪个可自行选择使用。

others忽略掉，因此转换后的类别共有10类，分别为：

["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]

即获取的YOLO格式的类别顺序为上述顺序。

下图为训练过程中部分图像

下图为验证过程中部分图像

训练使用原图进行训练，整体精度在0.4左右。覆盖了白色方块的精度可自行测试精度。

下载数据集可以访问官网获取原始数据集：Github

需要处理后的数据集可通过 V🔍：笑脸惹桃花获取。

Read more

毕业之家AI写作助手全面解析（含使用全攻略）

毕业之家AI写作助手全面解析（含使用全攻略）

毕业之家AI写作助手是一款专为学生群体打造的学术写作辅助工具，聚焦毕业论文、课程论文、开题报告等核心写作场景，以“极简操作、高效出稿、合规学术”为核心定位，适配中文学术环境，可实现从选题、大纲到初稿生成、优化导出的全流程辅助，帮助学生节省写作时间、降低学术创作难度，同时严格控制AI生成率，规避学术风险，是大学生、硕博研究生学术写作的实用帮手。一、核心定位与核心优势核心定位专注中文学术写作辅助，覆盖专科、本科、硕博全学历层次，适配不同专业方向，主打“AI辅助+人工优化”的创作模式，并非替代人工写作，而是通过智能技术简化繁琐流程，助力用户完成高质量学术稿件，兼顾效率与学术规范性。核心优势 * 高效出稿：采用5步极简流程，58分钟可产出8000字高质量初稿，5000字论文约30分钟完成，生成过程可实时查看、暂停/继续，大幅缩短写作周期。 * 低AI率合规：严格控制AI生成率低于5%，结合真实文献引用，降低学术不端风险，适配高校对AI写作的相关要求，部分用户实测优化后AI率可控制在10%

QWEN-AUDIO惊艳效果展示：支持 whisper/gloomy/cheerful 等20+情感指令

QWEN-AUDIO惊艳效果展示：支持 whisper/gloomy/cheerful 等20+情感指令你有没有想过，让AI帮你读一段文字，它不仅能读得字正腔圆，还能根据你的要求，用“兴奋的”、“悲伤的”、“神秘的”甚至“讲鬼故事”的语气来演绎？这听起来像是科幻电影里的场景，但现在，通过QWEN-AUDIO这个智能语音合成系统，这一切都变成了现实。它不再是一个冷冰冰的文本转语音工具，而是一个能理解情感指令、拥有“人类温度”的语音艺术家。今天，我们就来一起看看，这个基于通义千问Qwen3-Audio架构打造的新一代TTS系统，到底能生成多么惊艳、多么富有感染力的声音。 1. 核心能力：不止于“朗读”，更在于“演绎” 传统的语音合成技术，目标是把文字准确地读出来。但QWEN-AUDIO的目标更高：它要理解文字背后的情绪，并用声音把它“演”出来。它的核心秘密武器，叫做“情感指令跟随”。简单来说，你不仅可以告诉它“

Z-Image-Turbo镜像效果验证：人工盲测孙珍妮LoRA生成图与真人照相似度

Z-Image-Turbo镜像效果验证：人工盲测孙珍妮LoRA生成图与真人照相似度 1. 测试背景与目的最近AI图像生成技术发展迅猛，特别是人物肖像生成方面，已经能达到令人惊讶的逼真程度。Z-Image-Turbo镜像提供了一个专门生成孙珍妮图片的LoRA模型，让我们有机会验证一下：AI生成的图片到底有多像真人？这次测试不是冷冰冰的技术评测，而是一次真实的人工盲测。我们邀请了10位普通观众，让他们在不知道图片来源的情况下，判断哪些是AI生成的孙珍妮图片，哪些是真实的照片。通过这种方式，我们想看看这个模型在实际应用中的表现到底如何。测试的核心问题是：在普通人眼中，AI生成的孙珍妮图片和真实照片有多接近？能不能达到以假乱真的程度？ 2. 测试环境与方法 2.1 测试环境搭建测试使用的是基于Z-Image-Turbo的LoRA模型镜像，这个镜像已经预装了所有需要的环境。我们通过Xinference部署了模型服务，然后用Gradio搭建了一个简单的Web界面来使用模型。检查服务是否正常启动很简单，只需要查看日志文件： cat /root/workspace/xi

Youtu-LLM智能写作对比测试：云端同时跑3个模型方案

Youtu-LLM智能写作对比测试：云端同时跑3个模型方案对于自媒体团队来说，内容创作的质量和效率直接关系到账号的生存与发展。但选哪个AI助手最合适？是追求文风优美，还是看重逻辑严谨？本地电脑往往只能运行一个大模型，想并行测试多个方案几乎不可能。这时候，云端部署就成了最经济、最灵活的选择。通过ZEEKLOG星图镜像广场提供的强大算力支持，我们可以轻松在一台GPU服务器上同时运行Youtu-LLM等多个轻量级大模型，进行真实场景下的写作能力对比测试。本文将带你从零开始，一步步搭建一个多模型并行测试环境，专注于评估不同模型在实际内容创作中的表现差异。你不需要深厚的AI背景，只要跟着操作，就能快速上手。我们将使用腾讯优图实验室推出的Youtu-LLM作为核心测试对象，并结合其他主流轻量模型，在统一任务下比拼写作风格、逻辑连贯性和创意表达。整个过程充分利用云端资源按需扩容的优势，解决本地设备性能瓶颈问题，帮助你的团队做出更科学的内容工具选型决策。 1. 场景痛点与云端解决方案 1.1 自媒体内容助手选型的真实困境做自媒体的朋友都知道，一篇爆款文章的背后，往往是无数次的试错和打