Meta ShapeR：基于随机拍摄视频的 3D 物体生成技术

Meta 开源 ShapeR 项目，利用 Rectified Flow Transformer 将视频序列转换为带真实尺度的 3D Mesh。结合 SLAM 点云、实例分割及 VLM 文本描述，实现物体级重建。需预处理数据（如 Aria MPS），适用于 AR、机器人导航及具身 AI 数据集构建。

小熊软糖发布于 2026/4/5更新于 2026/4/1811 浏览

近日 Meta 开源了 ShapeR 项目，ShapeR 利用基于对象多模态数据的 Rectified Flow Transformer，将普通图像序列转换为完整的度量场景重建。简单来说，该模型可以从随手拍的视频或多张照片里，把真实物体恢复成可用 3D 模型（Mesh）。

文章配图

具体来说，用户拿着手机绕着一个物体拍摄一圈（图片序列或视频帧序列），ShapeR 会结合以下多模态条件喂给生成模型，最终得到物体的 metric 3D mesh（带真实尺度）：

SLAM (Simultaneous Localization and Mapping) 是 ShapeR 的核心基础，即通过算法解决摄像头在陌生环境中的定位和建图问题。其基本流程包括：

SLAM 可以得到'摄影师的足迹'和'物体的骨架'，具体包含：

稀疏点云：SLAM 不试图重建整个物体表面，只抓取最明显的特征点（如桌角、把手尖），锁定物体的真实尺寸和空间位置。

文章配图

相机位姿：记录手持设备绕物体走动时的每一步位置和镜头朝向。

文章配图

SLAM 依赖几何学的三角测量和概率学的误差优化。当设备移动时，通过视差配合 IMU 传感器提供的距离信息，算法可算出特征点在三维空间中的坐标。最后通过回环检测，当回到原点时比对历史画面，强制拉回累积的位置偏差。

文章配图

SLAM 是将硬件数据（IMU 加速度、摄像头像素变化）转化为几何约束的关键，为机器人、无人机或 XR 提供基础支持。

物体检测与实例分割相当于'自动抠图'和'聚光灯'。若需重建特定物体（如桌上的茶壶），算法需在背景中将其圈出或精确到像素级剔除背景。

更多推荐文章