Meta ShapeR :基于随机拍摄视频的 3D 物体生成,未来的 XR 和机器人基建支持

Meta ShapeR :基于随机拍摄视频的 3D 物体生成,未来的 XR 和机器人基建支持

近日 Meta 突然开源了它的 ShapeR 项目,ShapeR 可以利用基于对象多模态数据的 Rectified Flow Transformer,将普通图像序列转换为完整的度量场景重建,说人话就是:

从随手拍的视频/多张照片里,把真实物体恢复成可用 3D 模型(Mesh)

简单来说就是,你可以拿着手机绕着一个物体拍一圈(图片序列 / 视频帧序列),ShapeR 会结合:

  • SLAM 得到的稀疏点云 + 相机位姿
  • 物体检测/实例分割得到的对象实例
  • VLM 生成的文本 caption(描述物体),把这些多模态条件喂给生成模型,最后得到物体的 metric 3D mesh(带真实尺度)

看到这么多名词是不是有点懵?这些概念性的东西我们需要简单聊聊:

SLAM

这个是 ShapeR 的地基核心,SLAM (Simultaneous Localization and Mapping) 其实就是用算法解决摄像头在陌生化环境的定位和建图,实现定位的时候建图,建图的时候定位的支持,简单来说就是:

  • 摄像头采集数据
  • 通过画面比对计算移动距离
  • 通过算法来修正误差
  • 通过回环检测来解决漂移和消除误差

用人话来说就是:用 SLAM 可以得到 “摄影师的足迹”和“物体的骨架”,具体来自:

稀疏点云:相当于你在物体上撒了一把荧光粉,SLAM 并不试图重建整个物体表面,它只抓取最明显的特征点(比如桌角、杯子的把手尖),看起来稀稀拉拉像个幽灵,但它锁定了物体的真实尺寸和空间位置

相机位姿:相当于记录了你拿着手机绕着物体走动时,每一步具体站在哪里,手机镜头朝向哪里(比如:向左走了 1 米,镜头向下倾斜 30 度)

SLAM 之所以能做到这一点,核心依赖于几何学的三角测量和概率学的误差优化,简单来说:

  • 当你拿着手机移动时(比如向右移动了 10 厘米),SLAM 会对比前后两帧画面:通过这种视差,配合手机摄像头移动的距离(IMU 传感器提供),算法就能画出一个个三角形,通过几何公式算出每个特征点在三维空间中的精确坐标,这在室内导航 BLE 测距离也会有类似的三角测量用法
    • **A点(比如桌上的杯子)**在画面里移动了 100 个像素 -> 推算:它离我很近
    • **B点(窗外的树)**在画面里只移动了 2 个像素 -> 推算:它离我很远
  • SLAM 并不是真的知道自己移动了多少米,它最聪明的地方在于不追求一步到位,而是不断“猜”和“改”,通过假设和推算不断去修正误差
  • 最后有个回环检测,比如误差越来越大,但是当你绕了一圈回到原点时,摄像头拍到了之前的场景,比对之后会发,这个画面和之前 5 分钟的画面重合,那么它会把过去 5 分钟积累的所有位置偏差强制拉回

这就是 SLAM 的简单概念,实际上这也是移动开发里的 ARCore 和 ARkit 的基础概念之一,同时对于机器人、无人机或者 XR ,SLAM 也是非常重要的基础,如果用人话来说就是,SLAM 是把硬件数据(IMU 的加速度、摄像头的像素变化)转化为了几何约束

  • 眼睛(Camera):提供角度信息(我知道杯子在那个方向)
  • 前庭(IMU):提供尺度信息(我感觉我向前冲了 1 米)
  • 大脑(Algorithm):通过几何公式把角度和尺度结合,算出距离,再通过记忆(回环检测)修正走过的路

物体检测 / 实例分割

物体检测 / 实例分割(Object Detection / Instance Segmentation)简单说就是 “自动抠图”和“聚光灯”

  • 你拍的是整个房间,但你只想重建桌上的那个茶壶
  • 这就需要一个算法,能自动在乱糟糟的背景里把茶壶给“圈出来”(画个框),甚至精确到把茶壶的每一个像素都涂上颜色,把背景剔除掉,这就是把茶壶从环境里“抠”出来

具体到实现上就是:

  • 物体检测 (Detection):输出一个 Bounding Box(边界框),告诉系统物体大概在哪(比如 [x1, y1, x2, y2]
  • 实例分割 (Instance Segmentation):输出一个 Binary Mask(二值掩码),在这个掩码图里,属于茶壶的像素是 1,背景是 0

ShapeR 是 Object-Centric(以物体为中心)的,它需要这些 Mask 来告诉生成模型:“只准重建这个茶壶,不要把后面的墙壁和下面的桌子也算进去了”

VML

最后是 VLM (Visual Language Model generated Captions) 生成的文本 Caption,通俗理解来说就是“给 AI 的命题作文”:

  • 虽然有了照片,但生成模型有时候比较“笨”,它可能看不清照片里的细节(比如模糊了,或者被挡住了)
  • 这时,就需要一个专门懂图片的 AI(VLM,类似 GPT-4V),让它看一眼照片,然后写一段话:“这是一个红色的复古木质椅子,椅背有雕花,坐垫是天鹅绒材质。”

也就是针对图形增加一点文本表述,提供更准确的语义,照片提供了“几何外观”,文本提供了“概念理解”,防止照片里因为反光或遮挡导致细节丢失时,模型可以根据这段文本描述,利用其训练库里关于“复古木质椅子”的知识,合理地“脑补”出看不清的细节。

所以 ShapeR 基本概念就是通过这三者完成建模:

  • SLAM 提供骨架和尺子:“雕像必须这么高,膝盖必须在这里,不能乱动。”(保证准确度)
  • 实例分割提供一个轮廓剪影:“只能在这个范围内雕刻,别把旁边的花瓶也雕进去了。”(保证独立性)
  • VLM Caption 提供附录:“这可是个由桃花心木做的 18 世纪风格椅子,纹理要细腻。”(保证细节和合理性)

那么从前面的概念也可以看出来,ShapeR 的特点是:它不是直接重建一个整体 NeRF / TSDF 场景块,而是先检测场景中的多个对象 ,然后对每个对象单独重建 mesh ,最后再组装成场景

所以在 ShapeR 里,你可以:

  • 单独拿出某个物体(比如椅子/桌子)
  • 替换/移动/重新摆放
  • 导出到 DCC/引擎里编辑(Blender/Unity/Unreal)
换个概念简单理解,以前你只能得到一个 PNG,现在你可以得到一个 PSD

那你可能会说,它有什么作用?实际上它的作用还挺丰富,比如:

  • AR 场景理解 / 虚拟摆放
  • 机器人避障、navigation
  • 具身 AI 的数据集构建(真实物体 mesh + 尺度)

ShapeR 可以把“现实物体”的视频快速转成结构化的 3D 资产(mesh 级别),当然,事实上 ShapeR 不是“直接吃视频就出 3D”,它吃的是 预处理后的 per-object 数据包(pkl),里面包含:

  • 物体的稀疏 metric point cloud(来自 SLAM / SfM)
  • 带位姿的多视图图像(posed images)
  • 物体的 caption 文本描述
  • 物体的 2D/3D 实例信息(用于从场景里拆出物体)

所以 ShapeR 的核心难点确实不在模型推理本身,而在于数据准备 ,目前 ShapeR 的代码库明确指出,它的前提是假设数据已经通过 Aria MPS (Machine Perception Services) 流水线处理过。

所以不得不说,官方宣传的“随手拍”很美好,但是实际上并不是想象中那么简单,在他们提供的场景下:

  • 录制设备:Meta 内部的 Project Aria 眼镜(智能眼镜)
  • 数据准备:使用 【Aria MPS 服务】+ 【3D 实例检测】 + 【VLM caption】将眼镜录制的数据转换为上述的 .pkl 格式
这里的 Aria MPS 是闭源的服务,MPS 内部使用的 SLAM(定位与地图构建)、3D 重建、手部追踪等核心算法,暂时只面向 Project Aria Research Kit(ARK)研究合作伙伴开放。

目前官方已经发布 ShapeR Evaluation Dataset,里面每个样本就是推理要用的 .pkl(包含点云、multi-view 图像、相机参数/位姿、caption、GT mesh 等),如果只是想测试,可以下载他们的 evaluation dataset(HuggingFace 上的 facebook/ShapeR-Evaluation,项目页也有 Data 链接),直接跑推理:

python infer_shape.py --input_pkl <sample.pkl> --config balance --output_dir output 

所以,如果你不是合作伙伴,没有 Project Aria 眼镜,那么你只能用它已有的数据集玩玩,从项目看,大概率这会是一个服务收费的项目。

那我们有没有机会自己玩一下呢?也是有的,ShapeR 特意提供了一个 explore_data.ipynb 来解释这个 pkl 的结构:

只是自己做数据这个过程就相当麻烦了,你需要的路径就会复杂很多,并且也不确定是否可以走的通,我们需要使用 ARKit/ARCore 采集数据(录 RGB 帧 + 时间戳 + IMU + 相机内参,最好还有 VIO/轨迹),比如用 iPhone 的 Stray Scanner 数据采集的 App,它能记录 video + depth( LiDAR)+ ARKit 的 VIO(里程计/位姿)

当然,Stray Scanner 导出的数据格式不能直接支持 ShapeR 要求的输入格式(单一结构化 .pkl),所以需要转为它支持的格式,这个目前需要自己参考项目数据结构去变更,工作量巨大。

另外,官方也提供了一个叫 MapAnything 的“通用、前馈式 metric 3D 重建模型”,可以从输入图像(ShapeR 甚至可以从单目图像生成度量三维形状,而无需重新训练)直接回归带度量尺度的几何和相机信息,所以也可以作为 ShapeR “替代 MPS 的 metric points 生成器” 。

所以,一般来说,我们只能期待后续有更完善的转换工具,或者社区第三方的工具支持,这才是真的可以做到随手建模,甚至实时运算的效果,但是这个路线,不管对于智能眼镜,XR 场景还是机器人的导航能力,都是一个非常不错的尝试方向。

最后总结一下,ShapeR 的核心就是即使数据不全不干净,也可以脑补出完整模型,并且具备精准的尺寸和独立的模型与坐标

ShapeR 不是为了替代 Gaussian Splatting 做场景漫游的,它的目标是:当你戴着 AR 眼镜(或拿着手机)扫过房间时,它能把你看到的每一个具体的物体(杯子、椅子、键盘)瞬间变成一个个独立的、有真实尺寸的、完整的 3D 模型,哪怕你只是匆匆扫了一眼。

这就是为什么 Meta 如此重视它,因为这是大概率通往下一代空间计算理解物理世界的关键技术

参考链接

https://github.com/facebookresearch/ShapeR

Read more

2026年高校AIGC检测新规解读:AI率多少算合格?

2026年高校AIGC检测新规解读:AI率多少算合格?

2026年高校AIGC检测新规解读:AI率多少算合格? 从2024年知网正式上线AIGC检测功能开始,短短两年时间,"AI率"已经从一个新鲜名词变成了每个毕业生必须面对的硬性指标。2026年,各高校的AIGC检测政策进一步收紧和细化,要求也越来越明确。 那么,2026年AI率到底多少才算合格?不同学校的标准差别大吗?不合格会面临什么后果?本文将对这些问题进行深入解读。 一、AIGC检测已成为毕业论文审查的标配 回顾AIGC检测在高校中的普及历程,可以用"指数级扩散"来形容: * 2024年:知网上线AIGC检测功能,少数985/211院校开始试点,大部分学校处于观望状态 * 2025年:超过60%的本科院校和80%的研究生培养单位将AIGC检测纳入论文审查流程 * 2026年:AIGC检测基本实现全覆盖,包括专科院校在内的绝大部分高等教育机构都已建立相关制度 这一进程的背后,是教育部在2025年初发布的《关于加强高等学校学位论文学术诚信管理的指导意见》,其中明确提到"鼓励各高校引入人工智能生成内容检测机制,将AIGC检测作为论文质量保障的重要环节"。 虽然教育部没

AIGC(生成式AI)试用 47 -- AI与软件开发过程2

一切从 AIGC(生成式AI)试用 46 -- AI与软件开发过程1 开始,修正偏差。 个人理解: - 从框架到细节,还是从细节到框架? -- 先有框架再有细节的好,LLM能适应框架下的细节补充 - 更细节的Agent,更有针对性的Agent,解决更细节问题的Agent -- LLM提供了另一种形式的开发工具 - 想要,架构,细节,实现。。。。。。往复迭代,更多的接口,更多小而美的功能软件 - 回复有错吗?当然,错误和偏差大量存在。   如何纠偏、调优?这些专业知识 和 经验,还需要创造 * 先解决3问题 1. 确认软件开发过程各阶段所需完成的任务活动,以选择不同LLM 问题定义与可行性研究 → 需求分析 → 软件设计 → 编码与实现 → 测试 → 部署与交付

LLaMA-Factory微调多模态大模型Qwen3-VL

LLaMA-Factory微调多模态大模型Qwen3-VL

LLaMA-Factory微调多模态大模型Qwen3-VL 目录 LLaMA-Factory微调多模态大模型Qwen3-VL 1. 显卡驱动 2. 模型微调 3. 模型导出 4. 模型部署:vLLM服务 5. 测试效果 1. 显卡驱动 * 显卡型号:NVIDIA GeForce RTX 3090 24G * 显卡驱动:NVIDIA-SMI 535.171.04             * CUDA: 12.2 ,Driver Version: 535.171.04   微调Qwen3-VL-2B模型,至少需要12G显存 2. 模型微调 项目采用大型语言模型工厂(LLaMA-Factory)对大模型微调,目前可支持Qwen3 / Qwen2.5-VL / Gemma 3 / GLM-4.1V / InternLM

GitHub Copilot 调用第三方模型API

GitHub Copilot 调用第三方模型API

一、说明 OAI Compatible Provider for Copilot 的作用是:把 Copilot/Copilot Chat 发出的“类似 OpenAI API 的请求”,转发到指定的 OpenAI-Compatible 服务端(例如 ModelScope 推理网关、自建的兼容网关等)。 ⚠️ Warning 登录 GitHub Copilot 的账号一定要是非组织方式开通 pro 会员的,不然无法管理模型。 推荐直接用免费的free账号登录即可。 二、插件安装 在 VS Code 扩展市场安装并启用: * GitHub Copilot * GitHub Copilot Chat * OAI Compatible Provider for Copilot (johnny-zhao.