由 Physical Intelligence (Pi) 团队发表的论文 'π₀:A Vision-Language-Action Flow Model for General Robot Control' 是具身智能(Embodied AI)领域的里程碑式工作。它提出了第一个基于流匹配(Flow Matching)的大型视觉 - 语言 - 动作(VLA)基础模型,在多项极其困难的灵巧操作任务(如折叠衣服、清理桌面、组装纸箱)上达到了前所未有的自主水平。
π₀:视觉 - 语言 - 动作流模型通用机器人控制
Physical Intelligence 团队发布 π₀,首个基于流匹配的大型视觉 - 语言 - 动作(VLA)基础模型。采用 PaliGemma VLM 加独立动作专家架构,结合 Flow Matching 预测连续动作。利用超 1 万小时真实数据跨本体训练,通过 Zero-padding 统一不同机器人形态。训练采用预训练加后训练范式,兼顾鲁棒性与任务专精。工程上通过 KV Cache 和 Action Chunking 实现 50Hz 实时控制。

