KRS（Kratos Robotics Stack）：让 Zynq / FPGA 机器人开发真正“跑”起来

优质文章学习记录

07 Apr 2026 — 7 min read

在机器人与自主系统开发中，ROS 2 已经成为事实标准，但当它遇到 FPGA / Zynq / Kria 这类异构平台时，工程复杂度往往直线上升。

KRS（Kratos Robotics Stack）正是为了解决这个问题而诞生的。

KRS 是一个由 Xilinx（AMD）官方推动的开源机器人软件栈，目标非常明确：

让基于 ROS 2 的机器人应用，能够高效、可重复、工程化地运行在 Zynq 和 Kria 平台上。

先看下下面的应用视频：

🧠 什么是 KRS？

KRS（Kratos Robotics Stack）是一个围绕 ROS 2 + FPGA 加速构建的完整开发框架，主要面向：

Zynq UltraScale+ MPSoC
Kria SOM / Kria Robotics Stack（KR260 等）
需要 CPU + FPGA 异构加速的机器人与感知系统

它并不是“又一个 ROS 发行版”，而是一个工程化工具集合 + 架构规范。

它通过与 ROS（机器人领域的通用语言）紧密集成，并结合现代 C++ 和高级综合 (HLS) 技术，以及参考开发板和设计架构，为机器人专家快速启动项目提供了可能。

KRS功能：

KRS特征

以 ROS 2 为中心

ROS之于机器人专家，正如Linux之于大多数计算机科学家和软件开发人员。它帮助机器人专家构建机器人应用程序。随着ROS 2的发布，机器人行为的生成能力已达到生产就绪状态，并有可能对众多行业产生深远影响。与那些用大量库的复制品或分支以及/或类似的机器人模拟器来重复发明轮子的新机器人平台不同，Xilinx的KRS方案满足了ROS机器人社区的需求，并基于ROS 2及其紧密集成的机器人模拟器Gazebo构建而成。

为了将 Xilinx 的硬件加速技术与 ROS 2 生态系统连接起来，并鼓励软件包维护者从中受益，Xilinx 创建了一系列 ROS 2 构建系统 ( ament) 和元构建工具 ( colcon) 的扩展，以最大限度地减少 ROS 2 软件包维护者的工作量。该架构基于三大支柱。

实时 ROS 2

实时性是机器人系统的端到端特性。运行在标量处理器（例如 CPU）上的 ROS 2 应用会受到各种不确定性因素的影响。上图展示了 OSI 模型栈中的这些不确定性因素。为了使机器人在使用 ROS 2 进行进程间、进程内或网络内信息交换时能够确定性地响应，OSI 模型栈中涉及的所有层都必须能够确定性地响应。除非所有覆盖层和底层都具有相同的时间限制，否则无法保证 ROS 2 的实时性。相应地，对于实时 ROS 2 交互，其所有层也必须是实时的。对于运行在 CPU 上的 ROS 2，需要针对每个层级解决不确定性因素。

FPGA 允许设计能够提供确定性响应的机器人电路。虽然可以仅依靠 FPGA 设计硬实时机器人系统，但当与通常运行在标量处理器 (CPU) 上的 ROS 2 进行交互时，确定性往往会受到影响。KRS 的目标是通过模块化方法提供机制来缓解标量处理器中所有这些不确定性问题。可以根据具体用例，优先选择并使用特定模块来消除所需的不确定性来源，并调整缓解措施。

一般来说，CPU 实时问题的解决方案可分为两大类：a) 在相应的抽象层中设置正确的优先级；b) 应用服务质量 (QoS) 技术。每一层都有其自身的 QoS 方法。在 OSI 模型第二层（OSI 2 层），有 IEEE 802.1Q 标准中规定的成熟 QoS 技术，以及诸如时间敏感网络 (TSN) 标准等新技术。对于 Linux 网络协议栈（OSI 模型第三层和第四层），流量控制允许配置 QoS 方法。类似地，从 Linux 内核到应用程序库，每一层都需要配置为限制最大延迟，才能使机器人系统具备实时能力。

ROS 2 加速应用

ROS 生态系统汇聚了全球数千名机器人专家，他们使用 ROS 2 抽象层开发机器人应用程序。从某种意义上说，ROS 是机器人专家构建机器人行为时常用的 API，也是机器人领域的参考软件开发工具包 (SDK)。随着机器人领域混合源代码技术生态系统的出现，在 ROS 领域，已经有许多公司围绕开源软件包提供价值，并回馈社区。

通过与 Xilinx 应用商店的连接，KRS 将 ROS 2 叠加工作区容器化为机器人加速应用。

除了扩展 ROS 2 构建系统和工具以简化 ROS 2 软件包的货币化过程外，KRS 还提供了额外的工具和扩展，以简化 ROS 2 overlay 工作区的打包和发布到 Xilinx 应用商店的过程。上面的 subverb 展示了其中一个这样的工具。

KRS 的核心理念

KRS 的设计思想可以总结为三点：

1️⃣ ROS 2 原生优先（ROS-native）

不改变 ROS 2 的使用方式

节点、话题、消息、launch 文件全部保持 ROS 生态一致

FPGA 加速被“封装”在 ROS 2 节点之下

👉 对上层算法工程师几乎无感知

2️⃣ 异构加速可重用（Reusable Acceleration）

KRS 将 FPGA 加速抽象为可复用组件：

图像处理

计算机视觉

运动规划

感知与控制链路

这些加速模块可以被多个 ROS 2 节点复用，而不是“一次性工程”。

3️⃣ 面向产品级部署（Production-ready）

KRS 从一开始就不是 Demo 导向，而是：

支持 Yocto / PetaLinux

支持容器化（Docker）

支持 CI / 自动化构建

面向可量产、可维护系统

KRS 的整体架构

从官方文档来看，KRS 的结构大致分为三层：

上层：标准 ROS 2 应用

中层：KRS 提供的加速 ROS 2 组件

底层：FPGA 硬件加速（Vitis、HLS、RTL）

参考资料

https://xilinx.github.io/KRS/sphinx/build/html/docs/intro.html

https://github.com/Xilinx/Vitis_Libraries

✅ 总结一句话

KRS 不是教你“怎么用 FPGA”，而是教你“如何把 FPGA 自然地用进 ROS 2 机器人系统”。

它代表了一种趋势：

FPGA 不再是孤立的硬件模块，而是 ROS 生态中的一等公民。

关于这个机器人的项目，我们后面展开聊聊：

【AIGC前沿】MiniMax海螺AI视频——图片/文本生成高质量视频

目录 1.MiniMax海螺AI视频简介 2.使用教程 1.MiniMax海螺AI视频简介海螺视频，作为 MiniMax 旗下海螺 AI 平台精心打造的 AI 视频生成工具，致力于助力用户产出高品质视频内容。该工具依托 abab-video-1 模型，具备强大的文生视频功能。用户仅需输入关键词或简短语句，海螺视频就能据此创作出情节丰富的完整视频。此外，海螺视频运用 DiT 架构，能够精准模拟现实世界的物理规律，尤其在生成复杂场景与高动作场景时，展现出卓越的性能。 2.使用教程点击如下链接，进入蓝耘元生代智算云平台主页 https://cloud.lanyun.net/#/registerPage?promoterCode=11f606c51e 点击主页上方栏的“MaaS平台” 然后点击左侧栏的“视觉模型” 可以看到可以免费体验一次I2V-01图片生成视频点击如下红框处将图片上传例如输入如下的图片例如想让小狗动起来，可以在如下红框处输入相应的指令，然后点击立即生成

LLaMA Factory 从入门到精通，一篇讲完

目录一、LLaMA-Factory 简介二、安装部署三、数据微调 1、数据集的建立 2、数据集格式 3、模型参数 4、开始运行 5、导出模型四、webui 评估预测与对话导出五、SFT 训练命令行六、LoRA 合并合并量化七、推理原始模型推理配置微调模型推理配置多模态模型批量推理八、评估通用能力评估 NLG 评估评估相关参数一、LLaMA-Factory 简介 LLaMA Factory 是一个简单易用且高效的大型语言模型（Large

LLaMA-Factory安装教程（详细版）

本机显卡双3090 使用wsl中ubuntu torch==2.6.0 conda==24.5.0 cuda==12.4 python==3.12.4（python安装不做赘述，有需要我会另开一篇文章）一、准备工作首先，在 https://developer.nvidia.com/cuda-gpus 查看您的 GPU 是否支持CUDA。保证当前 Linux 版本支持CUDA. 在命令行中输入 uname -m && cat /etc/*release 输出如下，不一定完全一样，类似即可检查是否安装了 gcc . 在命令行中输入 gcc --version

Stable Diffusion 3.5 FP8镜像商业授权说明

Stable Diffusion 3.5 FP8 镜像商业授权说明在 AIGC 浪潮席卷全球的今天，图像生成模型早已不再是实验室里的“黑科技”，而是实实在在嵌入到电商、广告、游戏、影视等行业的生产力工具。但一个现实问题始终困扰着企业：如何在保证生成质量的前提下，把像 Stable Diffusion 3.5 这样的大模型，真正跑得快、用得起、扩得动？答案正在浮现——FP8 量化技术 + 容器化镜像部署，正成为高性能文生图服务落地的“黄金组合”。 2024年，Stability AI 发布的新一代旗舰模型 SD3.5，凭借其强大的多模态扩散架构（MM-DiT）和卓越的排版理解能力，迅速成为行业焦点。然而，原生 FP16 版本动辄 12GB+ 的显存占用、接近秒级的推理延迟，让很多企业望而却步。