构建 基于无人机 RGB+红外(RGBT)双模态小目标行人检测系统 无人机视角下RGB+红外对齐行人小目标检测数据集 航拍无人机多模态行人检测数据集 红外可见光行人检测数据集

构建 基于无人机 RGB+红外(RGBT)双模态小目标行人检测系统 无人机视角下RGB+红外对齐行人小目标检测数据集 航拍无人机多模态行人检测数据集 红外可见光行人检测数据集

无人机视角下RGB+红外对齐行人小目标检测数据集
模态与视角:无人机搭载 RGBT 双光相机,从 50–80 m 高度、45°–60° 俯视角采集,同步 RGB + 热红外图像对。
规模:6,125 对图像(4,900 train / 1,225 test),分辨率 640×512,共 70,880 个行人实例。
任务:专门面向 tiny person detection 的无人机 RGBT 检测 benchmark。

在这里插入图片描述


1

在这里插入图片描述


1

在这里插入图片描述


以下是 无人机视角下 RGB+红外对齐行人小目标检测数据集 的详细信息整理成表格:


📊 无人机 RGBT 行人小目标检测数据集概览表

项目内容
数据集名称DroneRGBT-Pedestrian(或自定义命名)
任务类型小目标行人检测(Tiny Person Detection)
应用场景低空安防、应急搜救、智慧城市、边境巡检、夜间监控
采集平台无人机(UAV)搭载 RGB + 热红外(Thermal)双光相机
模态双模态同步图像对
• 可见光(RGB)
• 热红外(Infrared / Thermal)
采集高度50 – 80 米
俯视角45° – 60° 斜向俯拍
图像分辨率640 × 512 像素(RGB 与红外严格对齐)
图像对数量6,125 对(每对含 1 张 RGB + 1 张红外图)
数据划分- 训练集(train):4,900 对
- 测试集(test):1,225 对
标注格式支持 YOLO / COCO / VOC 等(通常提供边界框 .txt.json
目标类别1 类:行人(Person)
总实例数70,880 个行人标注框(平均每个图像约 11.6 个目标)
目标特点- 小目标为主(多数 < 32×32 像素)
- 包含遮挡、密集、远距离、夜间/低照度场景
- 红外模态增强弱光/夜间检测能力
对齐方式像素级空间对齐(经标定与配准,RGB 与红外图一一对应)
适用模型- 单模态:YOLOv8(RGB 或 Thermal)
- 多模态融合:Fusion-YOLO、CFT、MFFNet、GLAD 等 RGBT 检测模型
用途• 无人机小目标检测 benchmark
• 多模态特征融合研究
• 跨模态对齐与迁移学习

该数据集专为 挑战性极高的无人机小行人检测任务 设计,特别适合评估模型在 远距离、小尺度、复杂光照(含夜间) 条件下的鲁棒性。

以下是构建 基于无人机 RGB+红外(RGBT)双模态小目标行人检测系统 的完整代码方案,采用 YOLOv8 多模态融合架构(简化版),支持训练、推理与可视化。由于 Ultralytics YOLOv8 原生不直接支持双模态输入,我们将通过 早期融合(Early Fusion) 方式将 RGB 与红外图拼接为 4 通道输入,并微调模型。

💡 注:本方案适用于科研/工程落地,可作为 benchmark 系统基础。

📁 一、项目结构

DroneRGBT_Detection/ ├── datasets/ │ ├── images/ │ │ ├── train/ # 存放融合后的 4 通道 .npy 或拼接图 │ │ └── val/ │ └── labels/ │ ├── train/ │ └── val/ ├── models/ │ └── yolov8s-rgbt.yaml # 自定义 4 通道输入模型配置 ├── tools/ │ ├── fuse_rgb_thermal.py # 将 RGB + 红外融合为 4 通道图像 │ └── create_labels.py # (若需从原始标注生成 YOLO 格式) ├── train.py # 训练脚本 ├── detect.py # 推理脚本(支持单图/视频) └── rgbt_drone.yaml # 数据集配置文件

🔧 二、1. 融合 RGB + 红外图像(fuse_rgb_thermal.py

# tools/fuse_rgb_thermal.pyimport os import cv2 import numpy as np deffuse_rgb_thermal(rgb_dir, thermal_dir, output_dir): os.makedirs(output_dir, exist_ok=True) rgb_files =sorted(os.listdir(rgb_dir))for rgb_file in rgb_files:ifnot rgb_file.lower().endswith(('.jpg','.png')):continue thermal_file = rgb_file # 假设文件名一致 rgb_path = os.path.join(rgb_dir, rgb_file) thermal_path = os.path.join(thermal_dir, thermal_file) rgb = cv2.imread(rgb_path)# (H, W, 3) thermal = cv2.imread(thermal_path, cv2.IMREAD_GRAYSCALE)# (H, W)if rgb isNoneor thermal isNone:print(f"Skip {rgb_file}")continue# 调整 thermal 到 3 通道(可选)或保留单通道 thermal = np.expand_dims(thermal, axis=2)# (H, W, 1) fused = np.concatenate([rgb, thermal], axis=2)# (H, W, 4)# 保存为 .npy(推荐)或拼接图(如用 4 通道 TIFF) np.save(os.path.join(output_dir, rgb_file.replace('.jpg','.npy')), fused)# 示例使用if __name__ =='__main__': fuse_rgb_thermal( rgb_dir='raw_data/train/rgb', thermal_dir='raw_data/train/thermal', output_dir='datasets/images/train')
✅ 输出为 .npy 文件(含 4 通道),便于后续加载。

🛠️ 三、2. 自定义 YOLOv8 模型(4 通道输入)

创建 models/yolov8s-rgbt.yaml

# YOLOv8s for RGBT (4-channel input)nc:1# number of classesscales:[0.33,0.50]# model depth and width scalingbackbone:# [from, repeats, module, args]-[-1,1, Conv,[64,3,2]]# 0-P1/2 (input must be 4-channel!)-[-1,1, Conv,[128,3,2]]# 1-P2/4-[-1,3, C2f,[128,True]]-[-1,1, Conv,[256,3,2]]# 3-P3/8-[-1,6, C2f,[256,True]]-[-1,1, Conv,[512,3,2]]# 5-P4/16-[-1,6, C2f,[512,True]]-[-1,1, Conv,[1024,3,2]]# 7-P5/32-[-1,3, C2f,[1024,True]]-[-1,1, SPPF,[1024,5]]# 9head:-[-1,1, nn.Upsample,[None,2,'nearest']]-[[-1,6],1, Concat,[1]]# cat backbone P4-[-1,3, C2f,[512]]# 12-[-1,1, nn.Upsample,[None,2,'nearest']]-[[-1,4],1, Concat,[1]]# cat backbone P3-[-1,3, C2f,[256]]# 15 (P3/8-small)-[-1,1, Conv,[256,3,2]]-[[-1,12],1, Concat,[1]]# cat head P4-[-1,3, C2f,[512]]# 18 (P4/16-medium)-[-1,1, Conv,[512,3,2]]-[[-1,9],1, Concat,[1]]# cat head P5-[-1,3, C2f,[1024]]# 21 (P5/32-large)-[[15,18,21],1, Detect,[nc]]# Detect(P3, P4, P5)
⚠️ 关键修改:首层 Conv 输入通道自动适配 4 通道(无需改代码,PyTorch 自动推断)。

📂 四、3. 数据集配置(rgbt_drone.yaml

# rgbt_drone.yamltrain: ./datasets/images/train # 实际存放 .npy 路径val: ./datasets/images/val nc:1names:['person']
❗ 注意:Ultralytics 默认读取图像文件(.jpg/.png),但我们需要加载 .npy。因此需自定义数据加载器。

🧩 五、4. 自定义数据加载器(关键!)

train.py 中重写 load_image 行为(简化版):

# train.pyfrom ultralytics import YOLO import torch import numpy as np import os from pathlib import Path # 替换默认的图像加载方式defcustom_load_image(self, i):"""Load 4-channel .npy image""" path = self.files[i]if path.endswith('.npy'): img = np.load(path)# (H, W, 4) img = img.transpose(2,0,1)# (4, H, W) img = torch.from_numpy(img).float()return img, img.shape[1], img.shape[2]else:# fallbackreturn self._old_load_image(i)# Monkey patch(仅用于训练)from ultralytics.data.dataset import YOLODataset YOLODataset._old_load_image = YOLODataset.load_image YOLODataset.load_image = custom_load_image # 修改标签加载(确保 .txt 对应 .npy)defcustom_get_label_file(self, img_path):returnstr(Path(img_path).with_suffix('.txt')) YOLODataset.get_label_file = custom_get_label_file 
更稳健做法:继承 YOLODataset 并注册新类,但上述 monkey patch 可快速验证。

▶️ 六、5. 完整训练脚本(train.py

# train.py(完整版)from ultralytics import YOLO import torch import numpy as np from pathlib import Path # === 自定义数据加载(支持 .npy)===from ultralytics.data.dataset import YOLODataset defload_image_npy(self, i): f = self.im_files[i]if f.endswith('.npy'): im = np.load(f)# (H, W, 4) im = im.transpose(2,0,1)# (4, H, W) im = torch.from_numpy(im).float() h, w = im.shape[1], im.shape[2]return im, h, w else:return self._orig_load_image(i)defget_label_file_npy(self, img_path):returnstr(Path(img_path).with_suffix('.txt'))# Patch YOLODataset._orig_load_image = YOLODataset.load_image YOLODataset.load_image = load_image_npy YOLODataset.get_label_file = get_label_file_npy # === 开始训练 ===if __name__ =='__main__': model = YOLO('models/yolov8s-rgbt.yaml')# 从头训练# 或加载预训练权重(需修改首层 conv1.weight)# model = YOLO('yolov8s.pt')# model.model.model[0].conv = torch.nn.Conv2d(4, 64, 3, 2, 1) # 手动替换 model.train( data='rgbt_drone.yaml', epochs=100, imgsz=512, batch=16, name='drone_rgbdet', project='runs', device=0, cache=False, workers=4)

🔍 七、6. 推理脚本(detect.py

# detect.pyimport torch import numpy as np import cv2 from ultralytics import YOLO model = YOLO('runs/drone_rgbdet/weights/best.pt')defdetect_rgbd_pair(rgb_path, thermal_path): rgb = cv2.imread(rgb_path)# (H, W, 3) thermal = cv2.imread(thermal_path, cv2.IMREAD_GRAYSCALE)# (H, W) thermal = np.expand_dims(thermal, axis=2) fused = np.concatenate([rgb, thermal], axis=2)# (H, W, 4) fused = fused.transpose(2,0,1)# (4, H, W) fused = torch.from_numpy(fused).float().unsqueeze(0)/255.0# 归一化 results = model(fused, augment=True)# 可视化:叠加在 RGB 图上 annotated = results[0].plot() cv2.imshow('Detection', annotated) cv2.waitKey(0)# 示例 detect_rgbd_pair('test/rgb/001.jpg','test/thermal/001.jpg')

✅ 八、部署建议

方案说明
科研实验使用 .npy + 自定义 DataLoader
工程部署将 RGB + 红外拼接为 4 通道 TIFF / PNG(需扩展 OpenCV 支持)
加速推理导出 ONNX 后使用 TensorRT(需处理 4 通道输入)
替代融合策略中期融合(Two-Stream + 特征拼接)效果更佳,但需重写模型

Read more

技术反思:Agent平台的泡沫与未来——从低代码智能体工具看ToB AI落地的真实路径

截至2025年12月,AI Agent(智能体)开发平台如Coze、Dify等在市场中经历了短暂的高光后迅速陷入增长瓶颈。尽管这些平台以“低代码”、“快速构建AI应用”为卖点,在C端和轻量级场景中取得了一定传播效应,但在真正需要深度集成、复杂业务逻辑和高可靠性的ToB企业级市场,其失败率极高。 这背后并非技术不成熟,而是企业路线选择的根本性错误:我们把Agent误当成了一个可封装的产品形态,而非一种面向AI原生架构的设计思想。真正的突破不在“平台”,而在“框架”。 一、产品定位错位:低代码之殇 vs 高代码之需 当前主流Agent平台的核心问题是产品定位的严重偏差。 1. 低代码的本质是“预设流程 + 功能复用” * Coze、Dify等平台强调的是可视化编排、节点拖拽、Prompt模板库。 * 它们的设计哲学是“让非技术人员也能做AI应用”,目标是实现MVP(最小可行产品)的快速验证。 * 这种模式适用于C端小场景、实验性项目或营销类轻应用。 但问题在于:当进入ToB深水区时,业务流程不再标准化,需求高度定制化,所谓的“工作流”变得极其复杂,

VRM4U插件完整指南:在Unreal Engine 5中高效处理VRM模型

VRM4U插件完整指南:在Unreal Engine 5中高效处理VRM模型 【免费下载链接】VRM4URuntime VRM loader for UnrealEngine4 项目地址: https://gitcode.com/gh_mirrors/vr/VRM4U 还在为Unreal Engine 5中VRM模型导入的各种技术问题而烦恼吗?今天我要为你详细介绍一款能够彻底优化VRM工作流程的专业工具——VRM4U插件!这款专为UE5设计的VRM文件导入解决方案,让你能够专注于创意实现,而不是技术细节。 项目核心价值:为什么VRM4U是你的最佳选择 VRM4U插件不仅仅是一个格式转换器,它是一套完整的3D角色处理生态系统。通过智能化的技术实现,它解决了VRM模型在UE5环境中面临的多重挑战。 核心问题解决方案: * 自动化的材质系统转换 * 完整的骨骼结构映射 * 动画数据的无缝衔接 * 跨平台性能优化 快速入门:5分钟完成插件配置 获取插件资源 首先需要下载VRM4U插件,使用以下命令获取完整代码库: git clone https://gitcode

FPGA开发必看!Xilinx Vivado付费IP核License状态解读与获取/vivado最新license获取

FPGA开发必看!Xilinx Vivado付费IP核License状态解读与获取/vivado最新license获取

Xilinx(AMD) vivado软件全部付费IP核及license许可介绍和获取 制作不易,记得三连哦,给我动力,持续更新!!! License或IP src源码 文件下载:Xilinx IP 完整license获取 (点击蓝色字体获取)(可提供IP源码) 一、介绍 Vivado是Xilinx(现属AMD)FPGA开发的核心工具,其内置的IP核资源库极为丰富。这些IP核根据来源可分为两大类: 一类是Xilinx官方提供的IP核,另一类则来自第三方供应商。从授权方式来看,又可划分为免费授权和商业授权两种类型。对于需要商业授权的IP核,用户必须获取对应的License文件方可正常使用。 二、Xilinx IP核 2.1 Xilinx 免费IP Xilinx(AMD)自主开发的IP核主要提供基础功能模块和必要接口组件,涵盖数字信号处理、通信协议、存储控制等通用功能。这类IP核已集成在Vivado开发环境中,用户完成软件安装后即可直接调用,无需额外授权文件。其完整支持设计全流程,包括功能仿真、逻辑综合、布局布线以及比特流生成。在Vivado的License管理界面中,

医疗连续体机器人模块化控制界面设计与Python库应用研究(下)

医疗连续体机器人模块化控制界面设计与Python库应用研究(下)

软件环境部署 系统软件架构以实时性与兼容性为核心设计目标,具体配置如下表所示: 类别配置详情操作系统Ubuntu 20.04 LTS,集成RT_PREEMPT实时内核补丁(调度延迟<1 ms)开发环境Python 3.8核心库组件PyQt5 5.15.4(图形界面)、OpenCV 4.5.5(图像处理)、NumPy 1.21.6(数值计算) 该环境支持模块化控制界面开发与传感器数据的实时融合处理,为连续体机器人的逆运动学求解(如FB CCD算法测试)提供稳定运行基础[16]。 手眼协调校准 为实现视觉引导的精确控制,需完成相机与机器人基坐标系的空间映射校准,具体流程如下: 1. 标识点布置:在机器人末端及各段首尾、中间位置共固定7个反光标识点,构建臂型跟踪特征集[29]; 2. 数据采集:采用NOKOV度量光学动作捕捉系统(8台相机,