多智能体强化学习（MARL）核心概念与算法概览

Ne0inhk

24 Mar 2026 — 7 min read

训练单个 RL 智能体的过程非常简单，那么我们现在换一个场景，同时训练五个智能体，而且每个都有自己的目标、只能看到部分信息，还能互相帮忙。

这就是多智能体强化学习（Multi-Agent Reinforcement Learning，MARL），但是这样会很快变得混乱。

什么是多智能体强化学习

MARL 是多个决策者（智能体）在同一环境中交互的强化学习。

环境类型可以很不一样。竞争性的，比如国际象棋，一方赢一方输。合作性的，比如团队运动，大家共享目标。还有混合型的，更像现实生活——现在是队友，过会儿可能是对手，有时候两者同时存在。

但是这里与一个关键的问题：从任何一个智能体的视角看世界变成了非平稳的，因为其他智能体也在学习、在改变行为。也就是说在学规则的时候，规则本身也在变。

MARL 在现实中的位置

单智能体 RL 适合系统只有一个"大脑"的情况，而MARL 则出现在世界有多个"大脑"的时候。

现实世界中有很多这样的案例，比如交通信号控制：每个路口是一个智能体，一个信号灯"贪婪"了，下游路口就会卡死；仓库机器人：每个机器人自己选路径，碰撞和拥堵天然是多智能体问题；广告竞价和市场：智能体用不断变化的策略争夺有限资源；网络安全：攻击者和防御者是相互适应的智能体对；在线游戏和模拟：协调、欺骗、配合、自我对弈——这些都是MARL 的经典试验场。

核心概念

大多数真实场景中，智能体只能看到状态的一部分。所以 MARL 里的策略通常基于局部观测，而不是完整的全局状态。

单智能体 RL 里环境动态是稳定的，而MARL 不一样"环境"包括其他智能体。它们在学习，你的转移动态也就跟着变了。

这正是经典的 Qlearn在多智能体环境里容易震荡、甚至崩溃的原因。

合作任务中团队拿到奖励，但功劳该算谁的？团队成功了，是智能体 2 的动作起了作用，还是智能体 5 在 10 步之前的作用？这就是信用分配问题，这是MARL 里最头疼的实际难题之一。

集中式与分布式

集中训练、分布式执行（CTDE）

这是目前最常见的模式。训练时智能体可以用额外信息，比如全局状态或其他智能体的动作。执行时每个智能体只根据自己的局部观测行动。

这样的好处是，既有集中学习的稳定性，又不需要在运行时获取不现实的全局信息。

完全分布式学习

智能体只从局部经验学习。这个听起来是对的，而且简单任务也能用。但实际中往往不够稳定，合作任务尤其如此。

算法总览

合作性基于价值的方法：Independent Q-Learning（IQL）是最简单的基线，容易实现但通常不稳定；VDN 和 QMIX 通过混合各智能体的价值来学全局团队价值，合作处理得更好。

策略梯度和 Actor-Critic 方法：MADDPG 用集中式 Critic 配分布式 Actor，概念上是很好的切入点；MAPPO 在很多合作任务里是靠谱的默认选择。

自我对弈（Self-play）：和自己不同版本对打来建立泛化的策略。思路简单粗暴效果也很好。

用 Python 从零搭一个小 MARL 环境

来做个玩具游戏：两个智能体必须协调。经典设定——两者选同一个动作才有奖励。每个智能体选 0 或 1，动作一致拿 +1，不一致拿 0。

我们这里刻意设计得简单，这样方便我们聚焦在 MARL 机制本身。

 import random from collections import defaultdict class CoordinationGame: def step(self, a0, a1): reward = 1 if a0 == a1 else 0 done = True # single-step episode return reward, done

接下来是最小化的 Independent Q-Learning 设置，每个智能体学自己的 Q 表。这里没有状态，Q 只取决于动作。

 def epsilon_greedy(Q, eps=0.1): if random.random() < eps: return random.choice([0, 1]) return 0 if Q[0] >= Q[1] else 1 Q0 = defaultdict(float) # Q0[action] Q1 = defaultdict(float) # Q1[action] alpha = 0.1 eps = 0.2 env = CoordinationGame() for episode in range(5000): a0 = epsilon_greedy(Q0, eps) a1 = epsilon_greedy(Q1, eps) r, done = env.step(a0, a1) # One-step update (no next-state) Q0[a0] += alpha * (r - Q0[a0]) Q1[a1] += alpha * (r - Q1[a1]) # Inspect learned preferences print("Agent0 Q:", dict(Q0)) print("Agent1 Q:", dict(Q1))

多数运行会收敛到两种"惯例"之一：两者都学会总是选 0，或者都学会总是选 1。

这就是协调从学习中涌现出来的样子。虽然小但和大型合作 MARL 系统里依赖的模式是同一类东西。

这个玩具例子太友好了。难一点的任务里，IQL 常常变得不稳定，因为每个智能体都在追一个移动靶。

让例子更"MARL"一点

常见技巧是加共享团队奖励，同时保证足够长的探索期来发现协调，下面是一个带衰减 epsilon 的训练循环：

 Q0 = defaultdict(float) Q1 = defaultdict(float) alpha = 0.1 eps = 0.9 eps_decay = 0.999 eps_min = 0.05 env = CoordinationGame() for episode in range(20000): a0 = epsilon_greedy(Q0, eps) a1 = epsilon_greedy(Q1, eps) r, _ = env.step(a0, a1) Q0[a0] += alpha * (r - Q0[a0]) Q1[a1] += alpha * (r - Q1[a1]) eps = max(eps_min, eps * eps_decay) print("Agent0 Q:", dict(Q0)) print("Agent1 Q:", dict(Q1))

这当然不会解决 MARL，但它演示了一个真实原则：早期探索帮助智能体"找到"一个稳定的协调惯例。

总结

一旦解决了单步协调问题，还会有三个问题会反复出现：

虚假学习信号：智能体可能觉得"是自己动作导致了奖励"，实际上是另一个智能体的动作起了作用。

糟糕的均衡陷阱：在竞争性游戏里，智能体可能卡在稳定但不强的弱策略上。

规模爆炸：多智能体的状态和动作空间膨胀很快，需要更好的函数逼近（神经网络）、更好的训练方案（CTDE），通常还需要更讲究的环境设计。

应对这些问题没有万能解法，但有一些经过验证的思路。针对虚假学习信号，可以用 CTDE 架构让 Critic 看到全局信息，帮助每个智能体更准确地评估自己动作的贡献。均衡陷阱的问题，自我对弈加上一定的探索机制能帮智能体跳出局部最优。规模问题则需要参数共享、注意力机制等技术来降低复杂度。

实际项目中，建议先在概念上理解集中式 Critic 的工作原理，不用急着写完整的深度 RL 代码。这一步会改变你思考可观测性和稳定性的方式，后面上手具体算法会顺畅很多。

https://avoid.overfit.cn/post/56fb12fbb46e400180fad2999d533292

作者：Syntal

继续实践OpenClaw,好不容易把web 管理面板调通，再给它配上一个大模型

OpenClaw小龙虾是github 获得星标最多的项目，OpenClaw之所以能在GitHub上获得极高的关注度，主要原因在于它提供了一个功能强大、易于扩展的AI助手开发平台。把整个操作系统，打造成AI！ OpenClaw官网：OpenClaw — Personal AI Assistant 以前的安装记录：https://skywalk.blog.ZEEKLOG.net/article/details/157554991 本来感觉OpenClaw安装是挺简单的，没想到巨坑，有一台机器装好后没有web管理面板.....所以本来很简短的文档，写成了巨幅文档。安装OpenClaw 先在192.168.1.12安装，但是它没有systemd服务，导致OpenClaw的服务无法自动启动。需要手工执行openclaw gateway命令启动。后在192.168.1.19安装。但是装好后没有web管理面板，反复删除重装也没有，最后是安装的openclaw-cn ，才解决了问题。参见这个文档：https://skywalk.blog.ZEEKLOG.net/article/

Flutter 三方库 jwt_io 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、严谨、全能的 JSON Web Token (JWT) 加解密与身份安全验证引擎

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 jwt_io 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、严谨、全能的 JSON Web Token (JWT) 加解密与身份安全验证引擎在鸿蒙（OpenHarmony）系统的端云一体化登录、政企应用的安全审计或复杂的跨端权限校验场景中，如何确保来自云端授信中心的 JWT Token 既能被正确解析（Decode），又能被严密地校验其合法性与过期时间？jwt_io 为开发者提供了一套工业级的、基于 RFC 7519 标准的 JSON Web Token 深度处理方案。本文将深入实战其在鸿蒙应用安全底座中的应用。前言什么是 JWT IO？它不仅是一个简单的 Base64 解码器，而是一个具备深厚 RFC

OpenClaw dashboard命令后，无法登录web控制面板（在systemd服务无法启动的一些虚拟机里会碰到）

先上结论执行OpenClaw dashboard命令后，无法登录web控制面板，是因为OpenClaw的gateway服务没有起来。原来小龙虾OpenClaw 的命令没有学明白，先弄清楚命令： openclaw onboard 是配置 openclaw dashboard是显示web控制面板登录信息 openclaw gateway --verbose 是启动网关 openclaw gateway start是启动网关服务问题就是因为这台系统的systemd没有起作用，导致openclaw的gateway服务没有起来，所以控制面板无法登录。 OpenClaw status Overview ┌─────────────────┬───────────────────────────────────────────────────────────────────────────────────────────────────┐ │ Item │ Value │ ├─────────────────┼────────────────────────────────────

go语言：实现graham scan葛立恒扫描法算法（附带源码）

项目背景详细介绍在计算几何（Computational Geometry）领域中，**凸包（Convex Hull）**是一个极其基础、同时又非常核心的问题。简单来说，给定平面上的一组点，凸包就是：能够包住所有点的、最小的凸多边形直观理解： * 想象在桌面上撒一把钉子 * 用一根橡皮筋把所有钉子圈起来 * 橡皮筋形成的形状，就是这些点的凸包凸包在工程与科研中有大量实际应用，例如： * 计算机图形学（碰撞检测、可视区域） * GIS / 地图系统（区域边界计算） * 图像处理（目标轮廓提取） * 机器人路径规划 * 模式识别与机器学习 * 游戏引擎中的物理系统在众多凸包算法中，**Graham Scan（葛立恒扫描法）**是： * 最经典 * 最适合教学 * 数学与工程结合度极高的一种算法。它由 Ronald Graham 在 1972 年提出，是第一个时间复杂度达到 O(