Meta ShapeR：基于随机拍摄视频的 3D 物体生成技术解析 | 极客日志

PythonAI算法

Meta ShapeR：基于随机拍摄视频的 3D 物体生成技术解析

Meta 开源 ShapeR 项目，利用 Rectified Flow Transformer 将视频或图像序列转换为带真实尺度的 3D Mesh。该技术结合 SLAM 点云与位姿、实例分割掩码及 VLM 文本描述，实现以物体为中心的独立重建。虽官方依赖 Project Aria 眼镜及闭源 MPS 服务预处理数据，但社区可通过评估数据集或 MapAnything 等工具尝试。适用于 AR 场景理解、机器人导航及具身 AI 数据集构建，是空间计算理解物理世界的关键技术方向。

随缘发布于 2026/4/6更新于 2026/4/188 浏览

Meta ShapeR：基于随机拍摄视频的 3D 物体生成技术解析

Meta 近期开源了 ShapeR 项目，该项目利用基于对象多模态数据的 Rectified Flow Transformer，将普通图像序列转换为完整的度量场景重建。

即从随手拍的视频或照片中恢复真实物体的 3D 模型（Mesh）。

简单来说，用户拿着手机绕着一个物体拍摄一圈（图片序列或视频帧序列），ShapeR 会结合以下多模态条件喂给生成模型，最终得到物体的 metric 3D mesh（带真实尺度）：

SLAM 得到的稀疏点云 + 相机位姿
物体检测/实例分割得到的对象实例
VLM 生成的文本 caption（描述物体）

核心概念解析如下：

SLAM

SLAM (Simultaneous Localization and Mapping) 是 ShapeR 的地基核心，通过算法解决摄像头在陌生环境中的定位和建图。简单来说：

摄像头采集数据
通过画面比对计算移动距离
通过算法来修正误差
通过回环检测来解决漂移和消除误差

通俗而言，用 SLAM 可以得到'摄影师的足迹'和'物体的骨架'，具体包括：

稀疏点云：相当于在物体上抓取最明显的特征点（如桌角、把手尖），锁定物体的真实尺寸和空间位置。

相机位姿：记录手持设备绕物体走动时每一步的具体位置和镜头朝向。

SLAM 的核心依赖于几何学的三角测量和概率学的误差优化。当设备移动时，SLAM 对比前后两帧画面，配合 IMU 传感器提供的移动距离，通过视差算出每个特征点在三维空间中的精确坐标。若误差积累过大，回环检测会在回到原点时强制拉回偏差。

SLAM 是将硬件数据（IMU 加速度、摄像头像素变化）转化为几何约束的基础，广泛应用于 ARCore、ARKit、机器人及 XR 领域。

物体检测 / 实例分割

物体检测与实例分割简单说就是'自动抠图'和'聚光灯'。若拍摄的是整个房间但只想重建桌上的茶壶，算法需自动在背景中圈出目标。

极客日志微信公众号二维码

更多推荐文章

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

python infer_shape.py --input_pkl <sample.pkl> --config balance --output_dir output