Gazebo 机器人三维物理仿真平台

优质文章学习记录

09 Apr 2026 — 3 min read

Gazebo 简介

Gazebo 是一款由 Open Robotics（前身为 Willow Garage 和 OSRF）开发的开源 3D 机器人仿真软件。它是目前世界上最流行的机器人仿真平台之一，被广泛应用于学术研究、工业开发和机器人竞赛中。

核心特性

1. 物理仿真引擎

ODE（Open Dynamics Engine）：默认物理引擎，支持刚体动力学
Bullet：支持软体动力学和复杂碰撞检测
Simbody：生物力学级精确仿真
DART：基于广义坐标的高效动力学仿真

2. 3D 图形渲染

OGRE（Object-Oriented Graphics Rendering Engine）：提供高质量的 3D 可视化
支持逼真的光照、阴影、材质和纹理
可配置多摄像头视角和传感器可视化

3. 传感器仿真

支持多种机器人传感器的仿真：

摄像头（Camera）：RGB、深度相机
激光雷达（LiDAR）：2D/3D 激光扫描
IMU（惯性测量单元）
GPS、气压计、磁力计
接触传感器、力/力矩传感器
RFID、超声波传感器等

4. 机器人模型支持

SDF（Simulation Description Format）：Gazebo 原生的 XML 格式，描述机器人、环境和物理属性
URDF（Unified Robot Description Format）：ROS 标准格式，可通过插件转换为 SDF
内置模型数据库（Gazebo Model Database），包含数千种预置模型

软件架构

┌─────────────────────────────────────┐ │ 用户界面层 (GUI) │ │ （场景视图、模型编辑器、插件面板） │ ├─────────────────────────────────────┤ │ 仿真引擎层 (Server) │ │ （物理引擎、传感器管理、世界状态管理） │ ├─────────────────────────────────────┤ │ 通信层 (Transport) │ │ （基于 Google Protobuf 的发布/订阅） │ ├─────────────────────────────────────┤ │ 物理引擎层 │ │ （ODE/Bullet/Simbody/DART） │ └─────────────────────────────────────┘

主要版本演进

版本	发布时间	主要特性
Gazebo Classic (1.x-11.x)	2002-2022	基于 OGRE 1.x，与 ROS 深度集成
Ignition Gazebo (2020-2022)	2020-2022	模块化架构，支持云端仿真
Gazebo Sim (gz-sim)	2022-至今	全新架构，Ignition 的延续，支持 ROS 2
Gazebo Harmonic	2023	LTS 版本，长期支持至 2028 年

注意：Gazebo Classic（11.x）已于 2025 年 1 月停止维护，官方推荐迁移至 Gazebo Sim (Ignition)。

与 ROS 的集成

Gazebo 与 ROS（Robot Operating System） 无缝集成：

ROS 1（Gazebo Classic）

gazebo_ros_pkgs：提供 ROS-Gazebo 接口
支持话题发布/订阅、服务调用、插件机制

ROS 2（Gazebo Sim）

ros_gz（原 ros_ign）：ROS 2 与 Gazebo Sim 的桥接包
使用 gz-transport 和 ROS 2 的 DDS 通信
更好的实时性和分布式仿真支持

典型应用场景

算法验证：在仿真环境中测试导航、感知、控制算法
硬件在环仿真（HIL）：与真实硬件联调
多机器人仿真：支持大规模集群仿真
强化学习训练：提供 Gym 接口用于 AI 训练
竞赛平台：如 DARPA 机器人挑战赛、RoboCup 等

安装方式

Ubuntu（推荐）

# Gazebo Sim (最新版)sudoaptinstall gz-harmonic # 或 Gazebo Classic（已停止维护）sudoaptinstall gazebo11

源码编译

支持 Linux、macOS 和 Windows（实验性），需要依赖：

OGRE 3D 渲染引擎
物理引擎（ODE/Bullet 等）
Qt5/Qt6（GUI）
protobuf、Boost 等

优缺点分析

✅ 优点	❌ 缺点
开源免费，社区活跃	学习曲线较陡峭
物理仿真精度高	大规模场景性能有限
与 ROS 生态深度集成	图形渲染不如商业软件（如 Isaac Sim）
支持多种物理引擎	文档有时滞后于版本更新
丰富的模型库和插件	多机器人仿真时通信延迟

【机器人】复现 StreamVLN 具身导航 | 流式VLN | 连续导航

StreamVLN 通过在线、多轮对话的方式，输入连续视频，输出动作序列。通过结合语言指令、视觉观测和空间位姿信息，驱动模型生成导航动作（前进、左转、右转、停止）。论文地址：StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling 代码地址：https://github.com/OpenRobotLab/StreamVLN 本文分享StreamVLN 复现和模型推理的过程～下面是示例效果： 1、创建Conda环境首先创建一个Conda环境，名字为streamvln，python版本为3.9；然后进入streamvln环境，执行下面命令： conda create -n streamvln python=3.9 conda activate streamvln 2、安装habitat仿真环境

目标检测数据集——无人机视觉VisDrone数据集

随着无人机技术的飞速发展，无人机在航拍、监控、农业、物流等领域的应用日益广泛。与此同时，无人机视角下的视觉任务，如目标检测、目标跟踪和场景理解，也成为了计算机视觉研究的热点。然而，相比传统的地面视角数据集，无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战，这对现有算法提出了更高的要求。为了应对这些挑战并推动无人机视觉技术的发展，天津大学机器学习与数据挖掘实验室推出了 VisDrone数据集。作为一个大规模、标注精细的无人机视觉数据集，VisDrone 不仅涵盖了丰富的场景和多样化的目标类别，还为研究人员提供了一个极具挑战性的测试平台。无论是小目标检测的精度提升，还是密集场景下的鲁棒性优化，VisDrone 都成为了学术界和工业界不可或缺的资源。该数据集采集自中国14个不同城市，覆盖复杂城市场景、交通枢纽、密集人群等多种环境。 VisDrone官方Github下载渠道可点击访问： https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file 下载的数据集为VisDrone2019-DET-train

【XR技术介绍】一文理清 OpenVR、OpenXR、SteamVR 与各厂商 SDK等容易混淆的概念

在虚拟现实、混合现实开发领域，OpenVR、OpenXR、SteamVR 以及各硬件厂商专属 SDK，是我们经常遇到的东西。是不是傻傻分不清楚，容易混淆它们的定位、归属、功能与适用场景，这些到底是标准协议？还是插件？还是开发工具包？本文将从概念定义、制定 / 开发主体、核心职能、技术关系、适用场景多个维度，系统拆解它们差异与关联，帮你建立完整的认知框架。一、基础概念总览：先分清 “标准” 与 “实现” 在正式拆解前，先建立一个核心认知：OpenXR 与 OpenVR 是行业标准 / 接口规范，属于抽象的技术协议；SteamVR 是基于标准的 runtime 运行时实现，是可落地的软件平台；硬件厂商 SDK 则是设备专属的底层驱动与开发工具包，是硬件直连的桥梁。标准解决 “兼容统一” 问题，运行时与

Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT：近频繁用于视频生成与机器人动作预测(含清华Prediction with Action详解)

前言本文最开始属于此文《视频生成Sora的全面解析：从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》但考虑到DiT除了广泛应用于视频生成领域中，在机器人动作预测也被运用的越来越多，加之DiT确实是一个比较大的创新，影响力大，故独立成本文第一部分 Diffusion Transformer(DiT)：将扩散过程中的U-Net 换成ViT 1.1 什么是DiT 1.1.1 DiT：在VAE框架之下扩散去噪中的卷积架构换成Transformer架构在ViT之前，图像领域基本是CNN的天下，包括扩散过程中的噪声估计器所用的U-net也是卷积架构，但随着ViT的横空出世，人们自然而然开始考虑这个噪声估计器可否用Transformer架构来代替 2022年12月，William Peebles(当时在UC Berkeley，Peebles在𝕏上用昵称Bill，在Linkedin上及论文署名时用大名William)、Saining Xie(当时在纽约大学)的两人通过论文《Scalable Diffusion Models with Trans