UMI-机器人采集数据的通用框架

优质文章学习记录

09 Apr 2026 — 7 min read

UMI-机器人采集数据的通用框架

引言

在机器人学习领域，如何高效采集高质量的训练数据一直是研究的核心挑战。传统方式主要包括遥操作（teleoperation）、基于视频的学习（video learning）与手持夹持器（hand-held gripper）。其中，遥操作虽然能够直接获得可用于模仿学习的数据，但硬件部署复杂、成本高昂且依赖专家操作；基于人类视频的学习方法具有良好的环境多样性，但由于人与机器人之间存在显著的形态差异（embodiment gap），动作迁移效果有限；而手持夹持器作为一种折中方案，虽然提升了数据采集的直观性与便携性，但以往研究多局限于简单的抓取或静态操作，难以覆盖动态与复杂任务。

针对这些问题，斯坦福大学提出了 Universal Manipulation Interface (UMI)。其核心创新在于：

1.手持夹持器设计 —— 将传感器和摄像头直接安装在夹持器上，使人类示范与机器人执行的视觉输入对齐，从而大幅减少观测空间的差异；

2.改造后的 SLAM 系统 —— 结合视觉与动作信息，解决了传统基于单目相机的动作恢复精度不足的问题；

3。IMU 融合 —— 借助 GoPro 内置的惯性测量单元（IMU），在高速或动态操作中依然能够保持稳定、精确的 6DoF 姿态跟踪。

这种设计不仅提高了数据采集的可移植性与低成本优势，还使机器人能够学习动态、双臂以及长时序等复杂操作任务，从而为大规模的“in-the-wild”机器人数据采集与策略学习提供了全新途径。

1.什么是 UMI

UMI（Universal Manipulation Interface）本质上是一个用于数据收集和策略学习的框架。它通过手持夹持器（hand-held gripper）的设计，使人类能够以一种简单、快速且低成本的方式收集训练机器人所需的数据。与传统遥操作或视频学习方法相比，UMI 更强调实际可用性与高效性，能够覆盖更复杂的动态和长时序操作任务。

UMI 的一大亮点是对延迟问题的全面考虑。在真实机器人系统中，延迟主要来自三个环节：

环境观测延迟 —— 传感器采集环境信息时不可避免的延迟；
推理延迟 —— 系统对感知数据进行处理和决策的延迟；
执行延迟 —— 推理完成后，指令传输并驱动机器人执行动作的延迟。

为了保证策略在真实环境中仍具备良好的对齐性与可迁移性，UMI 在框架中引入了延迟匹配机制，使策略在推理和执行阶段能够与训练时的数据保持一致。

在感知设计上，UMI 采用了一系列巧妙的硬件改进：

鱼眼镜头（②）：提供超广角视野，增强对场景的整体感知；
改造后的 SLAM 与 GoPro 内置 IMU（① & ④）：结合视觉与惯性传感器，实现高速和动态场景下稳定、精确的姿态跟踪；
侧面镜（③）：在夹持器两侧加入物理镜面，形成隐式的立体观察，弥补单目视觉在深度感知上的不足；
夹持器跟踪（⑤）：实现对夹持器运动过程的连续追踪；
基于运动学的数据过滤（⑥）：保证所采集的数据在不同机器人结构下的可行性。

通过这一系列设计，UMI 在硬件简洁性与数据表达丰富性之间取得了平衡，为机器人策略学习提供了一个通用、可扩展的解决方案。

2. UMI的硬件结构设计

UMI 的数据采集设计核心在于相机与传感器的组合使用。其中，GoPro 相机作为主要的视觉输入设备，能够在低成本条件下提供高分辨率和高帧率的视频流，是整个系统的数据入口。为了提升场景感知能力，相机搭配了鱼眼镜头，其超广角（约 155°）能够在单帧图像中覆盖更多环境信息，减少因相机视野狭窄导致的目标丢失问题。

为了进一步获取深度信息，UMI 在夹持器两侧安装了物理侧面镜。这些镜子相当于提供了额外的虚拟摄像头视角，通过镜像反射形成隐式的双目视觉，从而弥补单目相机在深度估计上的不足。

除了视觉感知，UMI 还充分利用 GoPro 内置的 IMU（惯性测量单元）。IMU 由加速度计和陀螺仪组成，可以实时捕捉相机的运动加速度和角速度。当视觉因高速运动或遮挡而失效时，IMU 依然能够提供稳定的位姿信息。通过视觉与惯性融合（视觉-惯性 SLAM），UMI 可以在动态操作场景下保持对末端执行器的精确动作跟踪。

简而言之：

GoPro 相机 → 提供主要视觉输入

鱼眼镜头 → 扩大视野，提升场景覆盖

侧面镜 → 增强深度信息，模拟立体视觉

IMU → 捕捉快速和精确的动作轨迹

这些设计结合在一起，使得 UMI 能够以低成本实现高质量、多维度的数据采集，为机器人学习提供可靠支撑。

3. 延迟测量与估计

在机器人系统中，延迟是影响策略能否稳定迁移的重要因素。UMI 将延迟分为四类：相机延迟、本体感觉延迟、夹持器执行延迟、机器人执行延迟。以下分别给出估计方法和公式。

1) 相机延迟（Camera Latency, τ_cam）

相机从真实场景到可用帧的路径包含曝光、ISP/编码、传输与解码：

τ cam = τ exp + τ pipe + τ tx \tau_{\text{cam}} = \tau_{\text{exp}} + \tau_{\text{pipe}} + \tau_{\text{tx}} τcam=τexp+τpipe+τtx

估计方法：

将相机估计的末端位姿轨迹 (p_{\text{cam}}(t)) 与关节正解位姿 (p_{\text{enc}}(t)) 对齐；
使用互相关或最小化均方误差估计 (\tau_{\text{cam}})。

τ ^ cam = arg ⁡ max ⁡ τ C ( p ˙ cam , p ˙ enc ) ( τ ) \hat{\tau}_{\text{cam}} =\arg\max_{\tau}\; \mathcal{C}(\dot{\mathbf{p}}_{\text{cam}},\dot{\mathbf{p}}_{\text{enc}})(\tau) τ^cam=argτmaxC(p˙cam,p˙enc)(τ)

τ ^ cam = arg ⁡ min ⁡ τ ∑ k ∥ p cam ( t k ) − p enc ( t k − τ ) ∥ 2 \hat{\tau}_{\text{cam}} =\arg\min_{\tau}\; \sum_k \left\|\mathbf{p}_{\text{cam}}(t_k) - \mathbf{p}_{\text{enc}}(t_k-\tau)\right\|^2 τ^cam=argτmink

2026最火的6款免费AI写作软件测评：ai写网文哪个好用？这款ai消痕工具

很多朋友想在业余时间写写番茄、起点网文或者搞搞短剧赚点外快，但总是卡在“憋不出字”或者“大纲写崩”上。现在都2026年了，用ai写作软件来辅助写小说早就不是秘密了。但是，网文平台的审核越来越严，很多新手直接用AI生成的文章发出去，立马就被平台判定为“AI生成”导致限流，不仅没流量，连全勤奖都拿不到。今天，我们就抛开那些晦涩难懂的技术术语，用大白话给大家实测目前市面上热度最高的6款免费ai写作平台。到底ai写网文哪家强？怎么解决让人头疼的“机器味”？这篇超详细的避坑指南，建议想靠文字搞钱的朋友直接收藏！一、 6大热门免费AI小说工具优缺点大盘点我们选了大家最常搜的几款工具，直接看它们在实际写小说、写剧本时的真实表现。 1. 豆包：起名和找灵感的“点子王” * 优点：速度飞快，完全免费。你如果卡文了，或者不知道主角叫什么、书名怎么起才能吸引人，直接问豆包，它能一秒钟给你吐出几十个极其符合抖音、小红书调性的网感标题和名字。 * 缺点：千万别让它直接给你写正文！它的AI味太重了，动不动就是“嘴角勾起一抹弧度”、“倒吸一口凉气”。把这种文发到小说平台，

Copilot “Plan Mode“ + 多模型协同实战：让复杂项目开发丝滑起飞

在 AI 辅助编程普及的今天，我们似乎习惯了“Tab 键一路狂飙”的快感。但在面对大型存量项目（Legacy Code）时，这种快感往往会变成惊吓——AI 生成的代码看似完美，实则破坏了原有的架构逻辑，或者引入了难以排查的幻觉（Hallucinations）。作为一名后端开发者，我在工具链的探索上走了不少弯路。从 Spec Kit 到 Gemini Conductor，再到如今的 GitHub Copilot Plan Mode，我终于找到了一套适合复杂业务架构的“最佳实践”。今天想和大家分享这套 “Plan + Implement” 模式配合 “多模型路由” 的打法，它让我的开发体验发生了质变。一、引言：寻找大型复杂项目的“银弹” 在探索 AI 编程工具的过程中，我经历了三个阶段的心态变化：

如何用PuLID突破AI绘画的身份一致性难题？

如何用PuLID突破AI绘画的身份一致性难题？【免费下载链接】PuLID_ComfyUIPuLID native implementation for ComfyUI 项目地址: https://gitcode.com/gh_mirrors/pu/PuLID_ComfyUI 你是否曾遇到这样的困扰：用AI生成人物图像时，明明想要保持主体特征，结果却面目全非？PuLID（Pull Image Latent Diffusion）正是为解决这一痛点而生的图像引导生成技术。它能让你在转换风格的同时，精准保留人物核心身份特征，开启AI绘画的全新可能。 🎯 核心价值定位 PuLID （图像潜变量扩散技术）通过分析参考图像的深层特征，在扩散过程中施加精准引导，实现"身份不变，风格万变"的创作自由。核心优势 * 身份保持度远超传统方法 * 风格迁移自然无违和感 * 与ComfyUI无缝集成的工作流 🔍 基础工作原理你问我答：PuLID如何实现身份锁定？问：为什么普通AI绘画难以保持人物一致性？

GitHub Copilot插件实战指南：从安装到高效编码

1. GitHub Copilot插件安装指南第一次接触GitHub Copilot时，我被它的智能程度震惊了。这个由GitHub和OpenAI联合开发的AI编程助手，能根据你的代码上下文实时生成代码建议，就像有个经验丰富的开发者在旁边指导你一样。下面我会详细介绍如何在各种开发环境中安装这个神器。 1.1 主流IDE安装方法以IntelliJ IDEA为例，安装Copilot只需要几个简单步骤： 1. 打开IDEA，进入File > Settings（Windows/Linux）或IntelliJ IDEA > Preferences（macOS） 2. 选择Plugins，然后点击Marketplace 3. 搜索"GitHub Copilot" 4. 点击Install按钮 5. 安装完成后重启IDE 实测下来，从搜索到安装完成通常不超过2分钟。不过要注意，你的IDEA版本需要是2021.2或更高版本才能兼容。对于VSCode用户，步骤更简单： 1. 打开扩展市场（

UMI-机器人采集数据的通用框架

引言

1.什么是 UMI

2. UMI的硬件结构设计

3. 延迟测量与估计

1) 相机延迟（Camera Latency, τ_cam）

Read more

2026最火的6款免费AI写作软件测评：ai写网文哪个好用？这款ai消痕工具

Copilot “Plan Mode“ + 多模型协同实战：让复杂项目开发丝滑起飞

如何用PuLID突破AI绘画的身份一致性难题？

GitHub Copilot插件实战指南：从安装到高效编码