【CANN】Pi0机器人大模型 × 昇腾A2 测评

优质文章学习记录

12 Apr 2026 — 4 min read

【CANN】Pi0机器人大模型 × 昇腾A2 测评

写在最前面

🌈你好呀！我是是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识，不定期掉落福利资讯(*^▽^*)

写在最前面

版权声明：本文为原创，遵循 CC 4.0 BY-SA 协议。转载请注明出处。

Pi0机器人VLA大模型测评

哈喽大家好呀！我是是Yu欸。
最近人形机器人和具身智能真的太火了，大家都在聊 Pi0、聊 VLA 大模型。但是，兄弟们，不管是搞科研还是做落地，咱们始终绕不开一个问题——算力。
今天，我们一起把当下最火的 Pi0 机器人视觉-语言-动作大模型，完完整整地部署在国产算力平台上，也就是华为的昇腾 Atlas 800I A2 服务器上。

在跑通仓库模型的基础上，我们做一次性能测评。我们要测三个最核心的指标：第一，推理速度，机器人反应够不够快？第二，控制精度，机械臂抓得准不准？第三，功能完整性，国产环境到底稳不稳？
让我们开始吧！

【01:30 - 03:30】什么是CANN与测试背景

在正式跑代码之前，我先花两分钟介绍一下今天的幕后功臣。很多人只知道昇腾芯片，也就是 NPU，但很少人知道怎么用好它。
这就得提到 CANN 了。CANN 的全称是“神经网络计算架构”。简单来说，如果昇腾芯片是肌肉，那 CANN 就是神经系统。我们平时用的 PyTorch 写的代码，怎么在国产 NPU 上跑起来？全靠 CANN 在中间做翻译和加速。它把上层的 AI 框架和底层的硬件算力完美地连接在了一起。

这次测评，我没有自己瞎折腾环境，而是直接使用了 CANN 开源社区里的官方仓库，叫 cann-recipes-embodied-intelligence。这个仓库里全是针对具身智能的优化案例。说实话，现在的国产开源生态真的比几年前好太多了，像这种可以直接拿来用的“交钥匙”工程，能帮我们省下大量踩坑的时间。

接下来，我们进实操。

【03:30 - 06:00】环境配置

【06:00 - 09:30】推理性能测评：速度与激情

【09:30 - 12:30】精度测试

【12:30 - 14:00】功能与兼容性

【14:00 - 15:00】总结与展望

单次推理 65 毫秒，误差控制在 1 厘米级别。这一连串数据证明了一件事：国产算力配合 CANN 软件栈，已经完全具备了支撑高端具身智能发展的核心能力。咱们以后做机器人大模型，完全可以放心地用国产平台来跑。
如果你也是做 AI 的，或者对机器人感兴趣，我强烈建议你去逛逛 CANN 开源社区。哪里不仅有我今天用的代码，还有很多针对大语言模型、计算机视觉的优化案例，全是干货。

以上就是测评的全部内容，我们下期视频再见。拜拜！

hello，我是是Yu欸。如果你喜欢我的文章，欢迎三连给我鼓励和支持：👍点赞 📁 关注 💬评论，我会给大家带来更多有用有趣的文章。
原文链接 👉 ，⚡️更新更及时。

欢迎大家点开下面名片，添加好友交流。

《星辰 RPA 全自动：做一个小红书自动发文机器人》

前引：在企业数智化转型的浪潮中，如何突破 “有 AI 无落地、有流程无智能” 的困局？星辰 Agent 与星辰 RPA 的出现，正是为了解决这一痛点。作为科大讯飞旗下的双核心产品，星辰 Agent 以企业级 Agentic Workflow 开发平台为底座，提供 AI 工作流编排、模型管理与跨系统连接能力；而星辰 RPA 则以超过 300 个自动化原子能力，让业务流程真正 “动” 起来！目录一、企业机器人自动化平台：RPA （1）RPA介绍（2）服务端安装（1）clone项目（2）配置为本地访问（3）检查镜像源（4）配置default.conf

【论文阅读】SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

SWE-CI：基于持续集成评估智能体在代码库维护中的能力 * 论文链接 * 摘要 * 1. 简介 * 2. 评估智能体维护代码库的能力 * 2.1 任务形式化 * 2.2 归一化变更 * 2.3 EvoScore（演进得分） * 3 SWE-CI * 3.1 数据构建（Data curation） * Step 1: Repository Collection * Step 2: Commit Span Extraction * Step 3: Environment Construction * Step 4: Case Filtering * 3.2 双智能体评估协议 * 4 Experiments * 4.1 Experiment

FPGA Debug：PCIE XDMA没有Link up（驱动检测不到xilinx PCIE设备）使用LTSSM定位问题

问题现象：与驱动联调：驱动无法扫描到Xilinx的PCIE设备通过ila抓取pcie_link_up信号：发现link up一直为低问题分析：出现这种情况，在FPGA中搭建测试环境，使用XDMA+BRAM的形式，减少其它模块的影响，框架如下： 1 检查PCIE的时钟时钟，必须使用原理图上的GT Ref 差分时钟，通过IBUFDSGTE转为单端时钟 2 检查PCIE 复位复位：PCIE复位信号有要求--上电后，PCIE_RESTN信号需在电源稳定后延迟一段时间再释放，通常是100ms以上而这100ms的时间，系统主要做以下的事情： * 电源稳定时间 * 参考时钟稳定时间 * PCIe IP核的复位和初始化时间 * 链路训练时间 // 典型的100ms时间分配： 0-10ms : 电源稳定 (Power Stable) 10-20ms : 参考时钟稳定 (Refclk Stable) 20-30ms : 复位释放和PLL锁定 (Reset Release

5种生成模型（VAE、GAN、AR、Flow 和 Diffusion）的对比梳理 + 易懂讲解 + 代码实现

目录 1 变分自编码器（VAE） 1.1 概念 1.2 训练损失 1.3 VAE 的实现 2 生成对抗网络（GAN） 2.1 概念 2.2 训练损失 a. 判别器的损失函数 b. 生成器的损失函数 c. 对抗训练的动态过程 2.3 GAN 的实现 3 自回归模型（AR） 3.1 概念 3.2 训练过程 a.核心思想: 用历史预测未来 b. Transformer 的损失计算：交叉熵监督预测 c.

【CANN】Pi0机器人大模型 × 昇腾A2 测评

写在最前面

Read more

《星辰 RPA 全自动：做一个小红书自动发文机器人》

【论文阅读】SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

FPGA Debug：PCIE XDMA没有Link up（驱动检测不到xilinx PCIE设备）使用LTSSM定位问题

5种生成模型（VAE、GAN、AR、Flow 和 Diffusion）的对比梳理 + 易懂讲解 + 代码实现