Meta 近期开源了 ShapeR 项目,该项目利用基于对象多模态数据的 Rectified Flow Transformer,将普通图像序列转换为完整的度量场景重建。
即从随手拍的视频或照片中恢复真实物体的 3D 模型(Mesh)。


简单来说,用户拿着手机绕着一个物体拍摄一圈(图片序列或视频帧序列),ShapeR 会结合以下多模态条件喂给生成模型,最终得到物体的 metric 3D mesh(带真实尺度):
- SLAM 得到的稀疏点云 + 相机位姿
- 物体检测/实例分割得到的对象实例
- VLM 生成的文本 caption(描述物体)
核心概念解析如下:
SLAM
SLAM (Simultaneous Localization and Mapping) 是 ShapeR 的地基核心,通过算法解决摄像头在陌生环境中的定位和建图。简单来说:
- 摄像头采集数据
- 通过画面比对计算移动距离
- 通过算法来修正误差
- 通过回环检测来解决漂移和消除误差
通俗而言,用 SLAM 可以得到'摄影师的足迹'和'物体的骨架',具体包括:
稀疏点云:相当于在物体上抓取最明显的特征点(如桌角、把手尖),锁定物体的真实尺寸和空间位置。

相机位姿:记录手持设备绕物体走动时每一步的具体位置和镜头朝向。

SLAM 的核心依赖于几何学的三角测量和概率学的误差优化。当设备移动时,SLAM 对比前后两帧画面,配合 IMU 传感器提供的移动距离,通过视差算出每个特征点在三维空间中的精确坐标。若误差积累过大,回环检测会在回到原点时强制拉回偏差。

SLAM 是将硬件数据(IMU 加速度、摄像头像素变化)转化为几何约束的基础,广泛应用于 ARCore、ARKit、机器人及 XR 领域。
物体检测 / 实例分割
物体检测与实例分割简单说就是'自动抠图'和'聚光灯'。若拍摄的是整个房间但只想重建桌上的茶壶,算法需自动在背景中圈出目标。







