基于强化学习Q-learning算法的无人机三维路径规划算法原理与实现，MATLAB代码

优质文章学习记录

10 Apr 2026 — 8 min read

一、算法概述

本文基于Q-learning离线强化学习，实现三维栅格环境下无人机无碰撞、最短路径、最少步数路径规划。无人机具备1格/2格三维全向移动、对角线飞行、悬停能力，通过与环境交互迭代学习最优策略，以到达终点、路径距离、移动步数、避障为核心目标，输出满足约束的最优飞行路径。

二、环境与核心建模

1. 三维状态空间

将无人机飞行空间离散化为三维栅格地图，状态定义为无人机坐标：
S={(x,y,z)∣1≤x≤Xmax, 1≤y≤Ymax, 1≤z≤Zmax} S = \left\{ (x,y,z) \mid 1 \le x \le X_{max},\ 1 \le y \le Y_{max},\ 1 \le z \le Z_{max} \right\} S={(x,y,z)∣1≤x≤Xmax, 1≤y≤Ymax, 1≤z≤Zmax}

(x,y,z)(x,y,z)(x,y,z)：无人机空间位置
Xmax,Ymax,ZmaxX_{max},Y_{max},Z_{max}Xmax,Ymax,Zmax：地图边界（代码中为10×10×1010 \times 10 \times 1010×10×10）

2. 动作空间（代码实现）

共54种动作，包含：

6个轴向1格移动、12个平面斜向1格移动、8个空间斜向1格移动
6个轴向2格移动、12个平面斜向2格移动、8个空间斜向2格移动
1个悬停动作 (0,0,0)(0,0,0)(0,0,0)

动作集合：
A={(Δx,Δy,Δz)∣Δx,Δy,Δz∈{−2,−1,0,1,2}, 非全零}∪{(0,0,0)} A = \{ (\Delta x,\Delta y,\Delta z) \mid \Delta x,\Delta y,\Delta z \in \{-2,-1,0,1,2\},\ 非全零 \} \cup \{ (0,0,0) \} A={(Δx,Δy,Δz)∣Δx,Δy,Δz∈{−2,−1,0,1,2}, 非全零}∪{(0,0,0)}

3. 约束条件

边界约束：坐标必须在地图范围内
避障约束：禁止进入障碍物坐标
目标约束：从起点(2,2,2)(2,2,2)(2,2,2)到达终点(9,9,8)(9,9,8)(9,9,8)

三、Q-learning核心数学原理

1. Q值函数

Q(s,a)Q(s,a)Q(s,a) 表示状态sss下执行动作aaa的长期累积奖励期望，是算法核心决策依据：
Q(s,a)←Q(s,a)+α⋅[R(s,a)+γ⋅max⁡a′Q(s′,a′)−Q(s,a)] Q(s,a) \leftarrow Q(s,a) + \alpha \cdot \left[ R(s,a) + \gamma \cdot \max_{a'} Q(s',a') - Q(s,a) \right] Q(s,a)←Q(s,a)+α⋅[R(s,a)+γ⋅a′maxQ(s′,a′)−Q(s,a)]
参数定义：

α\alphaα：学习率，控制更新步长（代码中动态衰减：0.25→0.050.25 \to 0.050.25→0.05）
γ\gammaγ：折扣因子，权衡远期奖励（代码中γ=0.99\gamma=0.99γ=0.99）
R(s,a)R(s,a)R(s,a)：即时奖励
s′s's′：执行动作后的新状态
max⁡Q(s′,a′)\max Q(s',a')maxQ(s′,a′)：下一状态最优动作价值

2. 动作选择策略

采用**ε\varepsilonε-贪心策略+动态衰减**，平衡探索与利用：
π(a∣s)={arg⁡max⁡aQ(s,a)概率 1−ε（利用最优策略）随机合法动作概率 ε（探索未知环境） \pi(a|s)= \begin{cases} \arg\max\limits_a Q(s,a) & 概率\ 1-\varepsilon（利用最优策略）\\ 随机合法动作 & 概率\ \varepsilon（探索未知环境） \end{cases} π(a∣s)={argamaxQ(s,a)随机合法动作概率 1−ε（利用最优策略）概率 ε（探索未知环境）
ε\varepsilonε 随训练指数衰减：ε=max⁡(εmin, ε0⋅e−0.007⋅episode)\varepsilon = \max(\varepsilon_{min},\ \varepsilon_0 \cdot e^{-0.007 \cdot episode})ε=max(εmin, ε0⋅e−0.007⋅episode)

四、奖励函数Reward设计

本算法以路径最短、无碰撞、必达终点、步数最少为目标，奖励函数分4类场景设计：

1. 奖励函数数学表达式

R(s,a)={3500−15⋅dstep−5⋅Nstep到达终点−1500碰撞障碍物/越界30⋅(dcur−dnext)−10⋅dstep−2⋅Nstep−10悬停30⋅(dcur−dnext)−10⋅dstep−2⋅Nstep正常飞行 R(s,a)= \begin{cases} 3500 - 15 \cdot d_{step} - 5 \cdot N_{step} & \text{到达终点}\\ -1500 & \text{碰撞障碍物/越界}\\ 30 \cdot (d_{cur}-d_{next}) -10 \cdot d_{step} -2 \cdot N_{step} -10 & \text{悬停}\\ 30 \cdot (d_{cur}-d_{next}) -10 \cdot d_{step} -2 \cdot N_{step} & \text{正常飞行} \end{cases} R(s,a)=⎩⎨⎧3500−15⋅dstep−5⋅Nstep−150030⋅(dcur−dnext)−10⋅dstep−2⋅Nstep−1030⋅(dcur−dnext)−10⋅dstep−2⋅Nstep到达终点碰撞障碍物/越界悬停正常飞行

2. 奖励项详细介绍

到达终点（最高奖励）
- 基础奖励：+3500+3500+3500，保证无人机优先到达目标
- 惩罚项：单步距离越长、总步数越多，奖励越低，强制最短路径+最少步数
碰撞障碍物/越界（最高惩罚）
- 惩罚：−1500-1500−1500，让无人机彻底学会避障，杜绝碰撞
悬停动作（额外惩罚）
- 惩罚：−10-10−10，避免无人机无效停留，提升飞行效率
正常飞行（启发式引导）
- 靠近终点：+30⋅(dcur−dnext)+30 \cdot (d_{cur}-d_{next})+30⋅(dcur−dnext)，距离缩短越多奖励越高
- 远离终点：自动产生负奖励，引导无人机向目标飞行
- 距离惩罚：−10⋅dstep-10 \cdot d_{step}−10⋅dstep，飞行距离越长惩罚越高
- 步数惩罚：−2⋅Nstep-2 \cdot N_{step}−2⋅Nstep，步数越多惩罚越高

3. 奖励设计核心目标

✅ 无人机必须到达终点
✅ 无人机绝对不碰撞障碍物
✅ 飞行路径欧氏距离最小
✅ 飞行移动步数最少
✅ 禁止无效悬停，提升飞行效率

五、算法步骤

阶段1：参数初始化

初始化三维地图、起点、终点、障碍物坐标
定义54种移动动作+1种悬停动作
初始化四维Q表：Q(Xmax,Ymax,Zmax,A)=0Q(X_{max},Y_{max},Z_{max},A) = 0Q(Xmax,Ymax,Zmax,A)=0
设置超参数：α,γ,ε\alpha,\gamma,\varepsilonα,γ,ε、训练轮数、最大步长

阶段2：Q-learning训练迭代

for 每一轮训练 episode = 1:max_episode 动态衰减学习率α和探索率ε 无人机重置到起点，清空路径、奖励、步数 for 每一步飞行 step = 1:max_step 1. 动作剪枝：剔除越界、碰撞障碍物的无效动作 2. ε-贪心策略选择最优/随机动作 3. 执行动作，得到新状态s' 4. 计算即时奖励R（核心：避障+距离+步数+终点） 5. 更新Q值：Q(s,a) ← Q(s,a)+α[R+γ·maxQ(s',a')−Q(s,a)] 6. 判断终止：到达终点/碰撞/越界 7. 更新状态、累计奖励、飞行路径 end 计算本轮总距离、总步数、总奖励并保存 end

阶段3：最优路径规划

加载训练完成的Q表
从起点出发，每一步选择Q(s,a)Q(s,a)Q(s,a)最大的动作
严格校验边界与障碍物，保证无碰撞
到达终点后，输出最优路径、总步数、总距离

阶段4：结果可视化

绘制奖励收敛曲线
绘制路径距离收敛曲线
绘制三维最优路径、起点、终点、障碍物

六、部分MATLAB代码及结果

% 最终结果 final_steps = size(path,1)-1; final_dist =0;for i =1:final_steps final_dist = final_dist + norm(path(i+1,:)-path(i,:)); end fprintf('\n=========================================\n'); fprintf(' 最优步数：%d 步\n', final_steps); fprintf(' 最短距离：%.4f\n', final_dist); fprintf(' 避障状态：无碰撞\n'); fprintf('=========================================\n'); %% 绘图 figure('Color','w','Position',[80,80,1200,380]); subplot(1,3,1); plot(1:max_episode, reward_curve, 'b-','LineWidth',1.6); xlabel('训练轮数'); ylabel('总奖励'); title('奖励收敛曲线'); grid on; subplot(1,3,2); plot(1:max_episode, episode_path_distance, 'r-','LineWidth',1.6); xlabel('训练轮数'); ylabel('路径总距离'); title('距离收敛曲线'); grid on; subplot(1,3,3); hold on; grid on; axis equal; view(3); xlabel('X'); ylabel('Y'); zlabel('Z'); title(sprintf('最优路径 | 步数：%d | 距离：%.2f | 无碰撞',final_steps,final_dist)); xlim([1 x_max]); ylim([1 y_max]); zlim([1 z_max]); plot3(start_state(1),start_state(2),start_state(3),'rs','MarkerSize',11,'LineWidth',2); plot3(end_state(1),end_state(2),end_state(3),'gd','MarkerSize',11,'LineWidth',2); scatter3(obstacle(:,1),obstacle(:,2),obstacle(:,3),100,'k','filled'); plot3(path(:,1),path(:,2),path(:,3),'m-','LineWidth',2.8,'MarkerSize',5); legend('起点','终点','障碍物','最优路径','Location','best');

七、完整MATLAB见下方名片

GLM-4.7-Flash实战教程：基于GLM-4.7-Flash构建本地Copilot工具

GLM-4.7-Flash实战教程：基于GLM-4.7-Flash构建本地Copilot工具 1. 为什么需要本地Copilot工具在日常编程和工作中，我们经常需要代码建议、文档生成、问题解答等AI辅助功能。虽然云端AI服务很方便，但存在网络延迟、隐私安全、使用成本等问题。基于GLM-4.7-Flash构建本地Copilot工具，可以让你： * 完全离线运行：不依赖网络，响应速度极快 * 数据隐私安全：所有对话和代码都在本地处理 * 定制化能力强：可以根据自己的需求调整模型行为 * 成本可控：一次部署，长期使用，无按次付费 GLM-4.7-Flash作为最新的开源大模型，在代码理解和生成方面表现出色，特别适合作为本地编程助手。 2. 环境准备与快速部署 2.1 硬件要求为了流畅运行GLM-4.7-Flash，建议准备以下硬件环境： * GPU：4张RTX 4090 D显卡（或同等算力） * 内存：至少128GB系统内存 * 存储：至少100GB可用空间（模型文件约59GB）

2026权威评测：毕业论文AIGC降重盘点，附免费试用

ZEEKLOG摘要： 2026年高校全面启用AIGC检测，传统同义词替换的降重方式已彻底失效！毕业论文“AIGC痕迹”究竟怎么破？本文基于真实学术场景，深度盘点5款主流AI学术工具，从原创性、降痕能力、服务保障等维度的实测数据出发，为你提供一份最靠谱的选型避坑指南。一、引言：“查重”退潮，“查痕”当道，你的论文还安全吗？作为在ZEEKLOG深耕“AI效率工具”与“学术科研”板块多年的老博主，最近收到了大量本硕博同学的私信求助。来到2026年，学术圈的游戏规则已经发生巨变。据最新发布的虚拟数据《2026中国高校学术诚信白皮书》显示：今年因“AIGC生成痕迹过高”被退回重写的毕业论文比例高达37.2%。知网、万方、格子达等主流平台已经完成了第三代AI检测大模型的迭代。这就导致了一个绝对的核心痛点：过去市面上的传统降重工具，只是在玩“同义词替换”的文字游戏，不仅语法生硬，且在最新的查测系统中AIGC疑似度往往直接飙升至60%以上。学生们花了钱降重，反而因为“AI味太重”面临学术不端的指控，返工率极高。

【AIGC前沿】MiniMax海螺AI视频——图片/文本生成高质量视频

目录 1.MiniMax海螺AI视频简介 2.使用教程 1.MiniMax海螺AI视频简介海螺视频，作为 MiniMax 旗下海螺 AI 平台精心打造的 AI 视频生成工具，致力于助力用户产出高品质视频内容。该工具依托 abab-video-1 模型，具备强大的文生视频功能。用户仅需输入关键词或简短语句，海螺视频就能据此创作出情节丰富的完整视频。此外，海螺视频运用 DiT 架构，能够精准模拟现实世界的物理规律，尤其在生成复杂场景与高动作场景时，展现出卓越的性能。 2.使用教程点击如下链接，进入蓝耘元生代智算云平台主页 https://cloud.lanyun.net/#/registerPage?promoterCode=11f606c51e 点击主页上方栏的“MaaS平台” 然后点击左侧栏的“视觉模型” 可以看到可以免费体验一次I2V-01图片生成视频点击如下红框处将图片上传例如输入如下的图片例如想让小狗动起来，可以在如下红框处输入相应的指令，然后点击立即生成

如何对xilinx FPGA进行bit文件加密

记录背景：最近在用Vivado评估国外一个公司所提供的ISE所建的工程时，由于我并没有安装ISE工程，因此将其提供的所有v文件导入到Vivado中，对其进行编译。添加完之后成功建立顶层文件，但奇怪的是，除了顶层文件的v文件可以正常打开编辑外，其它sub层的v文件都无法正常打开编辑，双击打开后显示的是乱码，继续查找它们与顶层文件有什么不同时，发现这些文件的属性之一——encrypted 都是“yes”状态。这多少有点震惊我了，我之前只知道为了保护某文件的保密性时，一般都是生成网表（ncg？netlist？）文件以便提供他人使用，别人拿到的网表文件只是个空壳子，尽管调用就好，里面的代码对他来说就是个空壳子。为了知道别人是怎么做到v文件加密的（感觉逼格挺高的），上网搜索一番，最后，最后，最后发现是需要Xilinx提供特定的工具才可以（而这一说法也得到了Xilinx的FAE的认证），而这个特定的工具一般只有Xilinx的高级客户才会拥有。好吧，继续挖掘的冲动突然就猝死了。 --------------------------------------------------------