JFM | 空军工程大学宗豪华、吴云等：基于FPGA的深度强化学习框架实现超音速闭环智能流动控制实验

优质文章学习记录

10 Apr 2026 — 8 min read

基于高速实验深度强化学习框架的超音速闭环流动控制

Closed-loop supersonic flow control with a high-speed experimental deep reinforcement learning framework

宗豪华¹，吴云¹，李金平²，苏志²，梁华²

引用格式：H. Zong, Y. Wu, J. Li, Z. Su, and H. Liang. Closed-loop supersonic flow control with a high-speed experimental deep reinforcement learning framework[J], Journal of Fluid Mechanics, 2025, 1009: A3.

编者按

复杂流动控制研究受限于缺乏低阶显示表达的流体动力学模型，所以长期以来多采用试探、观察和分析三步走“马后炮”式研究模式。无模型自适应控制、强化学习和流场预解分析技术的发展，为打破这类研究模式提供了强有力的方法基础。此文就是一篇深度强化学习解决复杂高速流动闭环控制的杰作。相比低速、低Re流动，高速流动的频谱更宽、流动结构尺度更丰富、系统复杂性更强，这对硬件响应和算法实时性提出了更大的挑战。该文以Ma=2的后台阶流动为例（Re和速度在公开文献中，皆创纪录），采用提出的FeDRL框架，通过仅需10s的风洞运行，就能设计出性能碾压传统遍历试凑法（最佳定频控制，数小时/数天）获得的控制律。

摘要：

虽然基于深度强化学习（DRL）的主动流动控制已经在低雷诺数仿真环境中得到了广泛的验证，但在真实实验条件下进行DRL控制仍存在很大挑战，其中之一便是数据采集和神经网络推理的强实时性（亚ms量级）。本研究提出了一种基于FPGA的高速实验深度强化学习框架（缩写：FeDRL），控制频率最高可10 kHz，比传统基于CPU的框架（100 Hz以下）高出两个数量级。以Mach 2的超音速后台阶流动为例，对FeDRL增强流动掺混的有效性进行测试。结果表明，仅需10秒的风洞运行时间，就能训练出比最佳定频控制还要优越的闭环控制律，将剪切层速度脉动增加21.2%。如此高的控制律优化效率在以前的闭环流动控制实验中还从未报道过（典型风洞测试时间：数小时至数天）。

正文：

主动流动控制（AFC）通过在流场中引入局部可控扰动来改善绕流物体的宏观特性，有望大幅改善飞行器的气动性能，其核心是控制律。深度强化学习作为一种解决博弈和决策问题的最佳机器学习方法，为主动流动控制提供了一个全新思路。图1总结了目前基于DRL的流动控制研究。总体来看，大部分的研究都在低雷诺数条件下开展，对象包括圆柱、翼型等。相比之下，实验研究较少，尤其是高速高雷诺数航空流动的深度强化学习实验研究，目前还是一片空白（图1绿色区域）。这其中的主要难度在于航空流动速度高、湍流结构演化快，典型特征频率在kHz量级。为了能够实现实时在线控制，要求深度强化学习必须在μs量级实现流场感知、神经网络推理以及激励输出。基于CPU的DRL框架受数据通信、采集等环节的限制，控制频率通常在100Hz以下。

本研究通过对硬件和算法的高度整合，提出了一种基于FPGA（现场可编程逻辑门阵列）的高速实验DRL控制框架（FeDRL）。数据采集模块直接挂载在FPGA上，能够在一个时钟周期内抓取和输出数据，同时神经网络的计算也能够利用FPGA进行加速，省去了传统框架中硬件间的通信时间。图2以经典的DQN算法为例进行了示意。该框架包含了两个并行执行的循环：在FPGA控制器中高速执行的实时控制循环（1-10kHz）和在CPU上的低速训练循环(10Hz)。神经网络控制律采用了结构简单、参数量少的径向基函数进行表达，典型控制频率可以达到1kHz量级以上。前期，该框架的有效性已在低速后台阶流动（POF, 2024, 36:105102）和翼型分离流动（POF, 2024, 36:091708）中得到了验证。本研究的重点旨在进一步将其拓展到超音速流动。

超音速后台阶流动控制实验在空军工程大学的超音速风洞中进行，马赫数为2。等离子体合成射流激励器作为主动控制装置对流场施加扰动，下游剪切层中的热线传感器提供流场的反馈信息，目标是最大化剪切层内的速度脉动。结果表明，仅需10秒的训练时间，FeDRL框架就能找到有效的闭环控制策略，使瞬时奖励rt从0上升至0.2左右，同时训练损失也在10秒内迅速收敛。对比基于策略的DRL算法（如PPO），FeDRL框架的优化效率高出一个数量级。从功率谱密度对比也可验证DRL控制的有效性，最佳案例下的的速度脉动增加量可达21.2%。通过控制律可视化可以发现，DRL控制策略可以进一步简化为二维的阈值触发控制策略：即当剪切层的瞬时位置高于基准平均位置时，应开启等离子体激励施加一次脉冲扰动。

图4 (a)瞬时奖励和损失的变化；(b)激励概率变化；(c)功率谱；(d)控制指令分布

将这种DRL控制策略与开环控制方法进行比较。结果表明，大部分放电频率下等离子体合成射流都能使功率谱峰值和低频波动幅度升高。随着放电频率的增加，热线速度脉动先增大后减小，最大值出现在放电频率为5 kHz时，与DRL中的动作更新频率一致。但定量来看，定频控制所获得的控制收益（10.5%）仅为最佳DRL控制（21.2%，案例2）的一半。

公众号原文链接（文末附论文资源）：

https://mp.weixin.qq.com/s/lGFg7WxLUo5q8RNsXnQZPA

JFM | 空军工程大学宗豪华、吴云等：基于FPGA的深度强化学习框架实现超音速闭环智能流动控制实验

优质文章学习记录

基于高速实验深度强化学习框架的超音速闭环流动控制

Closed-loop supersonic flow control with a high-speed experimental deep reinforcement learning framework

宗豪华¹，吴云¹，李金平²，苏志²，梁华²

编者按

摘要：

正文：

公众号原文链接（文末附论文资源）：

相关论文推荐：

Read more

LLaMA Factory多模态微调实践

Flutter for OpenHarmony：Flutter 三方库 dart_openai — 激发鸿蒙应用的 AIGC （AI 大模型/ChatGPT、Deepseek等）无限创意（适配鸿蒙

CosyVoice环境安装报错：安装openai-whisper时出现ModuleNotFoundError: No module named ‘pkg_resources‘的原因

国内大语言模型近年来发展迅速，以下是对文心一言、通义千问、Kimi、智谱清言和星火认知五大主流大模型

基于高速实验深度强化学习框架的超音速闭环流动控制

Closed-loop supersonic flow control with a high-speed experimental deep reinforcement learning framework

宗豪华¹，吴云¹，李金平²，苏志²，梁华²

编者按

摘要：

正文：

公众号原文链接（文末附论文资源）：

相关论文推荐：

Read more

LLaMA Factory多模态微调实践

Flutter for OpenHarmony：Flutter 三方库 dart_openai — 激发鸿蒙应用的 AIGC （AI 大模型/ChatGPT、Deepseek等） 无限创意（适配鸿蒙

CosyVoice环境安装报错：安装openai-whisper时出现ModuleNotFoundError: No module named ‘pkg_resources‘的原因

国内大语言模型近年来发展迅速，以下是对文心一言、通义千问、Kimi、智谱清言和星火认知五大主流大模型

Flutter for OpenHarmony：Flutter 三方库 dart_openai — 激发鸿蒙应用的 AIGC （AI 大模型/ChatGPT、Deepseek等）无限创意（适配鸿蒙