近日 Meta 开源了 ShapeR 项目,ShapeR 利用基于对象多模态数据的 Rectified Flow Transformer,将普通图像序列转换为完整的度量场景重建。简单来说,该模型可以从随手拍的视频或多张照片里,把真实物体恢复成可用 3D 模型(Mesh)。


具体来说,用户拿着手机绕着一个物体拍摄一圈(图片序列或视频帧序列),ShapeR 会结合以下多模态条件喂给生成模型,最终得到物体的 metric 3D mesh(带真实尺度):
- SLAM 得到的稀疏点云 + 相机位姿
- 物体检测/实例分割得到的对象实例
- VLM 生成的文本 caption(描述物体)
SLAM
SLAM (Simultaneous Localization and Mapping) 是 ShapeR 的核心基础,即通过算法解决摄像头在陌生环境中的定位和建图问题。其基本流程包括:
- 摄像头采集数据
- 通过画面比对计算移动距离
- 通过算法修正误差
- 通过回环检测解决漂移和消除误差
SLAM 可以得到'摄影师的足迹'和'物体的骨架',具体包含:
稀疏点云:SLAM 不试图重建整个物体表面,只抓取最明显的特征点(如桌角、把手尖),锁定物体的真实尺寸和空间位置。

相机位姿:记录手持设备绕物体走动时的每一步位置和镜头朝向。

SLAM 依赖几何学的三角测量和概率学的误差优化。当设备移动时,通过视差配合 IMU 传感器提供的距离信息,算法可算出特征点在三维空间中的坐标。最后通过回环检测,当回到原点时比对历史画面,强制拉回累积的位置偏差。

SLAM 是将硬件数据(IMU 加速度、摄像头像素变化)转化为几何约束的关键,为机器人、无人机或 XR 提供基础支持。
物体检测 / 实例分割
物体检测与实例分割相当于'自动抠图'和'聚光灯'。若需重建特定物体(如桌上的茶壶),算法需在背景中将其圈出或精确到像素级剔除背景。
- 物体检测 (Detection):输出 Bounding Box(边界框),指示物体大致位置。
- :输出 Binary Mask(二值掩码),区分物体与背景像素。








