强化学习基础：动态规划算法原理与实现

强化学习数学原理详解：从动态规划开始

第一部分：基础数学概念

1.1 马尔可夫决策过程（MDP）

一个马尔可夫决策过程由五元组构成：$\text{MDP} = (S, A, P, R, \gamma)$，其中：

$S$：状态空间（有限或无限集合）
$A$：动作空间（有限或无限集合）
$P$：状态转移概率，$P(s' \mid s,a) = \text{Pr}(S_{t+1}=s' \mid S_t=s, A_t=a)$
$R$：奖励函数，$R(s,a,s') = \mathbb{E}(R_{t+1} \mid S_t=s, A_t=a, S_{t+1}=s')$
$\gamma$：折扣因子，$0 \le \gamma < 1$

import numpy as np class GridWorldMDP: """3×3 网格世界 MDP 实现""" def __init__(self, size=3, goal_reward=10, step_cost=-1, gamma=0.9): self.size = size self.n_states = size * size self.n_actions = 4 # 0:上，1:下，2:左，3:右 self.goal_reward = goal_reward self.step_cost = step_cost self.gamma = gamma # 初始化转移概率 P(s'|s,a) 和奖励函数 R(s,a,s') self.P = np.zeros((self.n_states, self.n_actions, self.n_states)) self.R = np.zeros((self.n_states, self.n_actions, self.n_states)) self._build_transitions() def _build_transitions(self): """构建确定性转移和奖励函数""" goal_state = self.n_states - 1 # 右下角为目标 for s in range(self.n_states): row, col = divmod(s, self.size) for a in range(self.n_actions): # 计算下一个状态（撞墙时不变） if a == 0: next_row, next_col = max(row-1, 0), col elif a == 1: next_row, next_col = min(row+1, self.size-1), col elif a == 2: next_row, next_col = row, max(col-1, 0) else: next_row, next_col = row, min(col+1, self.size-1) s_next = next_row * self.size + next_col self.P[s, a, s_next] = 1.0 # 确定性转移 # 设置奖励 if s == goal_state: self.R[s, a, s_next] = 0 elif s_next == goal_state: self.R[s, a, s_next] = self.goal_reward else: self.R[s, a, s_next] = self.step_cost def policy_evaluation(self, policy, max_iter=1000, theta=1e-6): """策略评估：迭代求解 V^π""" V = np.zeros(self.n_states) for i in range(max_iter): delta = 0 V_new = np.zeros(self.n_states) for s in range(self.n_states): v = 0 for a in range(self.n_actions): pi_a_s = policy[s, a] expected_value = 0 for s_next in range(self.n_states): p = self.P[s, a, s_next] r = self.R[s, a, s_next] expected_value += p * (r + self.gamma * V[s_next]) v += pi_a_s * expected_value V_new[s] = v delta = max(delta, abs(v - V[s])) V = V_new if delta < theta: print(f"策略评估在{i+1}次迭代后收敛") break return V def policy_improvement(self, V): """策略改进：贪心策略更新""" new_policy = np.zeros((self.n_states, self.n_actions)) for s in range(self.n_states): # 计算所有动作的 Q 值 q_values = np.zeros(self.n_actions) for a in range(self.n_actions): q = 0 for s_next in range(self.n_states): p = self.P[s, a, s_next] r = self.R[s, a, s_next] q += p * (r + self.gamma * V[s_next]) q_values[a] = q # 选择最优动作（多最优动作时平均分配概率） best_actions = np.where(q_values == np.max(q_values))[0] for a in best_actions: new_policy[s, a] = 1.0 / len(best_actions) return new_policy def policy_iteration(self, max_iter=100): """策略迭代算法""" # 初始化随机策略 policy = np.ones((self.n_states, self.n_actions)) / self.n_actions for i in range(max_iter): print(f"\n=== 策略迭代第{i+1}轮 ===") # 策略评估 V = self.policy_evaluation(policy) # 策略改进 new_policy = self.policy_improvement(V) # 检查收敛 if np.allclose(policy, new_policy): print(f"策略在{i+1}次迭代后收敛到最优") return V, new_policy policy = new_policy print("达到最大迭代次数") return V, policy def value_iteration(self, max_iter=1000, theta=1e-6): """价值迭代算法""" V = np.zeros(self.n_states) for i in range(max_iter): delta = 0 V_new = np.zeros(self.n_states) for s in range(self.n_states): # 计算所有动作的期望价值 action_values = np.zeros(self.n_actions) for a in range(self.n_actions): q = 0 for s_next in range(self.n_states): p = self.P[s, a, s_next] r = self.R[s, a, s_next] q += p * (r + self.gamma * V[s_next]) action_values[a] = q # 取最大值 V_new[s] = np.max(action_values) delta = max(delta, abs(V_new[s] - V[s])) V = V_new if delta < theta: print(f"价值迭代在{i+1}次迭代后收敛") break # 提取最优策略 optimal_policy = self.policy_improvement(V) return V, optimal_policy # 运行示例 if __name__ == "__main__": print("="*60) print("3×3 网格世界 MDP 示例") print("="*60) # 创建 MDP 实例 mdp = GridWorldMDP(size=3, goal_reward=10, step_cost=-1, gamma=0.9) # 1. 策略迭代 print("\n1. 策略迭代:") V_pi, policy_pi = mdp.policy_iteration(max_iter=10) print(f"最优价值函数（策略迭代）:\n{V_pi.reshape(3,3).round(4)}") # 2. 价值迭代 print("\n" + "="*60) print("\n2. 价值迭代:") V_vi, policy_vi = mdp.value_iteration() print(f"最优价值函数（价值迭代）:\n{V_vi.reshape(3,3).round(4)}") # 比较结果 print("\n" + "="*60) print("策略迭代 vs 价值迭代:") print(f"价值函数最大差异：{np.max(np.abs(V_pi - V_vi)):.6f}") print(f"策略最大差异：{np.max(np.abs(policy_pi - policy_vi)):.6f}") # 验证贝尔曼最优方程 print("\n" + "="*60) print("验证贝尔曼最优方程:") for s in range(mdp.n_states): lhs = V_vi[s] # 计算右侧 action_values = np.zeros(mdp.n_actions) for a in range(mdp.n_actions): q = 0 for s_next in range(mdp.n_states): p = mdp.P[s, a, s_next] r = mdp.R[s, a, s_next] q += p * (r + mdp.gamma * V_vi[s_next]) action_values[a] = q rhs = np.max(action_values) print(f"状态{s}: LHS={lhs:.4f}, RHS={rhs:.4f}, 差异={abs(lhs-rhs):.6f}")

from Policy_iteration import GridWorldMDP import numpy as np class ValueIterationMDP(GridWorldMDP): def value_iteration(self, theta=1e-6): V = np.zeros(self.n_states) print("="*60) print("价值迭代算法开始") print("="*60) print(f"初始价值函数:\n{V.reshape(self.size, self.size)}\n") for iteration in range(1000): delta = 0 V_new = np.zeros(self.n_states) for s in range(self.n_states): action_value = [] for a in range(self.n_actions): q = 0 # 计算每个动作 a 的完整 Q 值（求和所有转移） for next_state in np.where(self.P[s, a]>0)[0]: q += self.P[s, a, next_state]*(self.R[s, a, next_state]+ self.gamma * V[next_state]) action_value.append(q) V_new[s] = max(action_value) if action_value else 0.0 delta = max(delta, abs(V[s]- V_new[s])) V = V_new if iteration % 5 == 0: print(f"第{iteration +1}轮迭代 | 本轮最大误差：{delta:.6f}") print(f"当前价值函数:\n{V.reshape(self.size, self.size)}\n") # 收敛判断 if delta < theta: print(f"\n✅ 价值迭代在第{iteration +1}次迭代收敛！") print(f"最终收敛误差：{delta:.8f}") break # 提取最优策略 policy = self._extract_policy(V) return V, policy def _extract_policy(self, V): policy = np.zeros((self.n_states, self.n_actions)) for s in range(self.n_states): q_value = [] for a in range(self.n_actions): q = 0 for next_state in np.where(self.P[s, a]>0)[0]: q += self.P[s, a, next_state]*(self.R[s, a, next_state]+ self.gamma * V[next_state]) q_value.append(q) max_q = max(q_value) # 筛选所有最优动作（处理多最优动作均分概率） best_action = [a for a, q in enumerate(q_value) if abs(q - max_q)<1e-6] for a in best_action: policy[s, a] = 1.0/len(best_action) return policy if __name__ == "__main__": mdp_vi = ValueIterationMDP() print("价值迭代算法完整演示") print("="*60) # 运行价值迭代 V_vi, policy_vi = mdp_vi.value_iteration() # 1. 展示最终收敛的最优价值函数 print("\n" + "="*60) print("最终收敛 - 最优价值函数") print("="*60) V_grid = V_vi.reshape(mdp_vi.size, mdp_vi.size) print(V_grid) # 2. 展示最终收敛的最优策略矩阵 print("\n" + "="*60) print("最终收敛 - 最优策略矩阵 (状态数×动作数)") print("="*60) print(f"策略矩阵形状：{policy_vi.shape}") print("【矩阵含义：行=状态，列=动作，值=选择该动作的概率】") print(policy_vi) # 3. 策略可视化 print("\n" + "="*60) print(" 最优策略 - 网格可视化") print("="*60) # 动作映射（根据你的 GridWorldMDP 动作定义，通用上下左右映射） action_map = {0:"↑",1:"↓",2:"←",3:"→"} policy_grid = np.zeros((mdp_vi.size, mdp_vi.size), dtype=object) for i in range(mdp_vi.size): for j in range(mdp_vi.size): s = i * mdp_vi.size + j # 网格坐标转状态编号 best_acts = np.where(policy_vi[s]>0)[0] # 筛选最优动作 act_str = "".join([action_map[a] for a in best_acts]) policy_grid[i, j] = act_str if act_str else "终端" print("【每个网格值：当前位置的最优动作，多动作表示等概率选择】") print(policy_grid)

强化学习基础：动态规划算法原理与实现

强化学习数学原理详解：从动态规划开始

第一部分：基础数学概念

1.1 马尔可夫决策过程（MDP）

1.2 策略（Policy）

第二部分：价值函数与贝尔曼方程

2.1 回报（Return）

2.2 状态价值函数（State-Value Function）

2.3 动作价值函数（Action-Value Function）

2.4 贝尔曼期望方程（Bellman Expectation Equation）

对于 $V^\pi$：

对于 $Q^\pi$：

第三部分：动态规划算法

3.1 策略评估（Policy Evaluation）

3.2 策略改进（Policy Improvement）

3.3 策略迭代（Policy Iteration）

3.3.1 策略评估（求解当前策略的 $V^\pi$）

3.3.2 策略改进（构造更优策略 $\pi'$）

3.3.3 收敛判断

3.4 价值迭代（Value Iteration）

第四部分：具体示例与计算

4.1 3×3 网格世界示例

4.1.1 策略评估计算（随机策略）

4.1.2 价值迭代计算（中心状态 $s_{11}$）

第五部分：代码实现（Python）

5.1 策略迭代代码

5.2 价值迭代代码

更多推荐文章

相关免费在线工具

强化学习基础：动态规划算法原理与实现

强化学习数学原理详解：从动态规划开始

第一部分：基础数学概念

1.1 马尔可夫决策过程（MDP）

1.2 策略（Policy）

第二部分：价值函数与贝尔曼方程

2.1 回报（Return）

2.2 状态价值函数（State-Value Function）

2.3 动作价值函数（Action-Value Function）

2.4 贝尔曼期望方程（Bellman Expectation Equation）

对于 $V^\pi$：

对于 $Q^\pi$：

第三部分：动态规划算法

3.1 策略评估（Policy Evaluation）

3.2 策略改进（Policy Improvement）

3.3 策略迭代（Policy Iteration）

3.3.1 策略评估（求解当前策略的 $V^\pi$）

3.3.2 策略改进（构造更优策略 $\pi'$）

3.3.3 收敛判断

3.4 价值迭代（Value Iteration）

第四部分：具体示例与计算

4.1 3×3 网格世界示例

4.1.1 策略评估计算（随机策略）

4.1.2 价值迭代计算（中心状态 $s_{11}$）

第五部分：代码实现（Python）

5.1 策略迭代代码

5.2 价值迭代代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具