【无人机路径规划】基于深度强化学习的多无人机辅助边缘计算网络路径规划（Matlab代码实现）

优质文章学习记录

10 Apr 2026 — 17 min read

💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。

⛳️座右铭：行百里者，半于九十。

📋📋📋本文目录如下：🎁🎁🎁

目录

💥1 概述

 摘要

 一、研究背景与意义

 1.1 边缘计算与无人机的融合需求

 1.2 多无人机路径规划的挑战

 二、多无人机辅助边缘计算网络架构

 2.1 网络组成与功能

 2.2 路径规划的协同需求

 三、深度强化学习在路径规划中的适配性

 3.1 技术优势

 3.2 核心算法与多智能体协同

 3.2.1 单无人机路径规划：DDPG算法

 3.2.2 多无人机协同：MADDPG与IPPO

四、典型应用场景与性能优化

 4.1 动态环境自适应调整

 4.2 任务卸载与路径规划协同优化

 五、核心挑战与未来方向

 5.1 核心挑战

 5.2 未来方向

 六、结论

 📚2 运行结果

 🎉3 文献来源

 🌈4 Matlab代码、数据、文章下载

💥1 概述

文献来源：

摘要：
移动边缘计算（MEC）利用网络边缘的计算能力来执行各种物联网应用中的计算密集型任务。同时，无人机（UAV）具有灵活扩大覆盖范围和增强网络性能的巨大潜力。因此，利用无人机为大量物联网设备提供边缘计算服务已成为一种有前景的范式。本文研究了无人机辅助边缘计算网络的路径规划问题，其中一架无人机部署了边缘服务器，用于执行从多个设备卸载的计算任务。我们考虑设备的移动性，采用了高斯马尔可夫随机移动模型。考虑到无人机动态飞行和执行任务消耗的能量，我们制定了一个旨在最大化设备卸载的数据比特量同时最小化无人机能量消耗的路径规划问题。为了处理复杂环境的动态变化，我们应用深度强化学习（DRL）方法，基于双深度Q学习网络（DDQN）开发了一种在线路径规划算法。广泛的仿真结果验证了所提出的基于DRL的路径规划算法在收敛速度和系统奖励方面的有效性。

移动边缘计算（MEC）使得网络边缘的计算能力能够灵活快速地部署创新的应用和服务，为大量物联网设备[1]。有了MEC的部署，设备可以将计算密集型任务转移到附近强大的边缘服务器，以减少延迟和节省能量[1]，[2]。与固定的边缘服务器不同，最近的一些工作致力于移动边缘服务器的研究，它可以在恶劣环境中提供更灵活、更经济和更高效的计算服务。最近的一些文献提出使用无人机来改善地面物联网设备的连接性[3]。无人机辅助无线通信在灵活部署、完全可控的移动性和增强网络性能方面具有优势，因此引起了越来越多的研究兴趣。因此，无人机辅助边缘计算网络是一个自然的选择和有前景的范式，在其中如何优化无人机的飞行路径以满足大量设备的通信和计算需求成为一个重要且具有挑战性的问题。

最近，一些现有文献已经研究了无人机辅助移动边缘计算网络中的路径规划问题。在[4]中，针对无人机的延迟和能量消耗约束条件下，联合优化了无人机的轨迹和比特分配。然而，在这些工作中，设备被假定为固定的，并且移动性没有被考虑进去。在实际中，设备可能会随着时间动态变化，因此无人机需要根据移动设备的时变位置相应地调整其轨迹。与此同时，上述工作主要集中在传统的基于优化的路径规划算法上，但随着无人机和设备数量的增加，由于优化变量的激增，该方法效率可能不高[5]。在[6]中，通过使用深度神经网络（DNN）进行函数逼近，已经证明深度强化学习（DRL）在逼近Q值方面是有效的。此后，DRL已经被应用于无线网络中的在线资源分配和调度设计[7] - [9]。具体来说，在[7]中，通过优化卸载决策和计算资源分配，最小化了多用户MEC网络的执行延迟和能量消耗的总系统成本。在[8]中提出了一种在线卸载算法，用于最大化支持无线能量收集的无线供能MEC网络的加权求和计算速率。在[9]中，研究了基于深度强化学习的物联网设备计算卸载策略。然而，据我们所知，目前很少有现有的工作探讨了如何智能设计移动边缘计算网络中无人机的飞行轨迹，以服务于大量设备，尤其是考虑到设备的动态移动性和无人机与设备之间的动态关联。

移动数据处理技术在通信行业的使用正在增加。由于这项技术，具有大计算能力的物联网设备可能会以灵活和及时的方式推出独特的应用程序和服务。当边缘服务器用于卸载计算密集型任务时，延迟降低，能耗降低。近年来，无人机（UAV）以终端用户的多址边缘计算服务器的形式得到了利用。由于其灵活的部署、全面的控制和网络性能，UA V辅助无线通信受到了广泛的研究兴趣UAV辅助的边缘计算网络是有意义的，并且在处理巨大设备的通信和处理需求时是一个有趣的概念。

空中无人机（UAV）长期以来一直被用作移动网络中的网络处理器，但它们现在被用作移动边缘计算（MEC）中的移动服务器。由于它们的灵活性、可移植性、强大的视线通信联系以及低成本、可改变的使用，它们在研究和商业应用中变得更加流行。广泛的民用服务现在可能因其基本特性而得到支持，包括运输和工业监测、农业以及森林火灾和无线服务。本项目研究了基于无人机的移动边缘计算网络，其中无人机（UAV）进行移动终端用户向其提供的计算。为了确保每个TU的服务质量（QoS），UA V基于移动TU的位置动态选择其路线。

详细文章见第4部分。

摘要

随着5G通信、物联网与边缘计算技术的深度融合，多无人机辅助边缘计算网络（UAV-MEC）已成为解决动态场景下低延迟计算服务的关键范式。然而，传统路径规划方法在应对高维动态状态（如用户任务分布、网络负载、无人机剩余电量）时存在适应性不足的问题。深度强化学习（DRL）通过神经网络拟合策略或价值函数，为多无人机协同路径规划提供了端到端优化框架。本文聚焦DRL在UAV-MEC网络中的应用，系统梳理其技术架构、核心算法与典型场景，并提出面向实际部署的挑战与解决方案。

一、研究背景与意义

1.1 边缘计算与无人机的融合需求

传统云计算模式因传输延迟高、网络拥塞等问题，难以满足实时性要求高的应用场景（如远程医疗、自动驾驶）。边缘计算通过将计算资源下沉至网络边缘，显著降低数据传输延迟，但固定边缘节点的覆盖范围有限。无人机凭借其灵活部署能力，可作为移动边缘节点（UAV-MEC），动态扩展边缘计算网络的覆盖范围。例如，在灾害救援场景中，无人机可快速抵达灾区，为受灾用户提供临时计算服务，弥补地面基础设施的损毁。

1.2 多无人机路径规划的挑战

多无人机协同路径规划需同时满足以下核心目标：

覆盖最大化：确保用户任务可接入边缘节点，避免服务盲区；
延迟最小化：缩短任务卸载与处理时间，提升用户体验；
能耗均衡化：延长多机协同续航时间，降低运维成本。

传统方法（如A、RRT）难以处理高维动态状态，而DRL通过神经网络直接从原始数据（如传感器感知的环境信息、用户任务请求）中学习最优策略，为复杂环境下的路径决策提供了新范式。

二、多无人机辅助边缘计算网络架构

2.1 网络组成与功能

UAV-MEC网络由“无人机集群-地面用户-核心网络”三层架构组成：

无人机集群：搭载边缘计算模块（CPU、内存、通信单元），作为移动边缘节点提供计算服务；
地面用户：通过无线通信向UAV-MEC卸载计算任务（如视频分析、实时监测）；
核心网络：负责全局任务调度与数据汇总，协调无人机间的资源分配。

2.2 路径规划的协同需求

多无人机路径规划需突破传统“避障-最短路径”框架，满足三维协同需求：

空间覆盖协同：无人机位置需覆盖高任务密度区域，避免服务盲区；
资源负载协同：平衡各无人机的计算资源利用率，防止任务过载导致延迟激增；
通信质量协同：确保无人机与用户、无人机间的通信链路稳定（如避免障碍物遮挡导致的信号衰减）。

三、深度强化学习在路径规划中的适配性

3.1 技术优势

DRL通过神经网络拟合策略或价值函数，完美适配多无人机路径规划需求：

高维状态处理：卷积神经网络（CNN）可提取环境图像中的障碍物与用户分布特征，循环神经网络（RNN）能处理任务请求的时序动态；
连续动作空间支持：深度确定性策略梯度（DDPG）、近端策略优化（PPO）等算法可直接输出连续动作（如无人机的速度向量）；
端到端优化：无需人工建模复杂环境模型，通过与环境的交互自主学习“状态-动作-奖励”映射，适应动态场景。

3.2 核心算法与多智能体协同

3.2.1 单无人机路径规划：DDPG算法

DDPG通过Actor-Critic框架实现策略优化：

Actor网络：输出确定性动作（如无人机的移动速度）；
Critic网络：评估该动作的价值，指导Actor网络优化策略。

在城市广场场景中，无人机通过DDPG规划路径，可形成“蜂窝状”覆盖，确保每个用户到最近无人机的距离小于通信阈值。例如，某实验中，无人机集群通过DDPG算法将用户任务完成率提升至92%，较传统方法提高23%。

3.2.2 多无人机协同：MADDPG与IPPO

多无人机系统为典型多智能体场景，需采用多智能体深度强化学习（MADRL）解决协同决策问题：

集中式训练-分布式执行（CTDE）：如MADDPG，训练时共享全局状态（所有无人机与用户信息），执行时各无人机仅用局部观测决策。适用于多无人机路径冲突避免（如通过全局状态预测其他无人机的轨迹）；
去中心化训练：如独立PPO（IPPO），各无人机独立训练策略，通过有限通信（如广播自身位置）实现协作。适用于大规模无人机集群，降低计算复杂度。

MADRL的核心是设计“协同奖励”，如奖励多无人机的服务覆盖重叠率（避免冗余覆盖）与任务负载均衡度（差异越小奖励越高）。例如，在某应急救援场景中，MADDPG算法使无人机集群的任务卸载延迟降低41%，能耗均衡度提升28%。

四、典型应用场景与性能优化

4.1 动态环境自适应调整

当环境突变（如突发事故导致某区域任务激增、出现临时禁飞区），DRL的在线学习能力可快速响应：

实时状态更新：通过传感器实时更新用户分布与障碍物状态；
策略在线微调：PPO算法的“剪辑目标函数”可在不破坏原有策略的前提下快速迭代，适应新场景；
多智能体协同响应：MADDPG通过集中式Critic网络评估全局影响，引导无人机向突发任务区域集结。

4.2 任务卸载与路径规划协同优化

任务卸载效率（如卸载延迟、成功率）依赖于无人机与用户的通信质量（受距离影响）。DRL通过以下方式实现协同：

状态纳入任务队列信息：将各用户的任务类型（轻量/重型）、截止时间纳入状态空间；
动作关联卸载策略：无人机在调整路径的同时，通过Actor网络输出任务卸载比例（本地处理/卸载给其他无人机）；
奖励耦合延迟与能耗：任务在截止时间前完成且卸载延迟低、能耗小则奖励高。

例如，在某工业监测场景中，无人机通过DRL算法将重型任务的卸载比例优化至65%，较固定策略提升32%，同时任务完成延迟降低19%。

五、核心挑战与未来方向

5.1 核心挑战

状态空间爆炸：多无人机+用户+网络状态的高维信息导致训练难度剧增，需轻量化网络设计（如知识蒸馏压缩模型）；
多目标优化冲突：覆盖、延迟、能耗的目标权重难以动态调整，需研究自适应奖励机制（如基于强化学习的元参数优化）；
实时性瓶颈：DRL的神经网络推理耗时可能无法满足毫秒级路径调整需求，需硬件加速（如FPGA部署）；
安全性与鲁棒性：强化学习的“试错”过程可能导致无人机碰撞，需引入安全约束（如在Critic网络中加入碰撞惩罚项）。

5.2 未来方向

融合元学习：通过元强化学习（Meta-RL）使无人机快速适应新场景（如从未见过的地形），减少重新训练时间；
联邦深度强化学习：多无人机在本地训练模型，仅共享参数更新，保护用户隐私（如任务数据）；
三维空间路径规划：研究无人机在复杂地形（如城市峡谷、山区）中的三维协同路径规划，提升覆盖效率；
多模态感知融合：结合视觉、雷达、激光雷达等多传感器数据，提升环境感知的准确性与鲁棒性。

六、结论

深度强化学习为多无人机辅助边缘计算网络的路径规划提供了端到端优化框架，通过神经网络直接从高维原始数据中学习最优策略，显著提升了网络在动态环境下的适应性与协同效率。未来，随着元学习、联邦学习等技术的融合，DRL将进一步推动UAV-MEC网络向智能化、自主化方向发展，为智慧城市、应急救援、工业物联网等领域提供低延迟、高可靠的边缘计算服务。

📚2 运行结果

部分代码：

function TU_demand_matrix = TU_demand_linear
%% parameters
global N2;
global TU_info;
global SERVICE_RADIS;
global n;
global B;

%% Normalize
maxDemand=max(TU_info(:,3));
minDemand=min(TU_info(:,3));
%% Calculate accumulated TU_info service demand matrix
TU_demand_matrix=zeros(N2,N2); %initial T as N2*N2 0 matrix
for x=1:N2 %for point (x,y) in N2*N2, summrize demand from TU_info with in SERVICE_RADIS, return T
for y=1:N2
sum=0;
for i=1:size(TU_info,1)
if norm([x/N2,y/N2]-TU_info(i,1:2))<= SERVICE_RADIS
sum=sum+(TU_info(i,3)-minDemand)/(maxDemand-minDemand);
end
end
TU_demand_matrix(x,y)=sum;
end
end
end

🎉3 文献来源

部分理论来源于网络，如有侵权请联系删除。