FPGA FFT缩放因子配置全解析

FPGA FFT缩放因子配置全解析

目录

前言

1.快速傅里叶变换(FFT)

1.1 FFT的来源    

1.2 FFT IP 缩放因子设置实例

缩放配置的底层含义:16'haaaa

每一级的计算与“减肥”过程

输入准备:24 位原始数据

Stage 1:第一次蝶形运算

Stage 2:第二次蝶形运算

Stage 3 & 4:持续压缩

Stage 5:最后一级(第 1024 个点对齐)

与MATLAB对比

缩放因子过大的后果

1.3 进阶探索:Block Floating Point (BFP) 模式

1.3.1 什么是块浮点?

1.3.2 BFP 的运行机制:逐级动态监测

1.3.3 BFP 模式的优势分析

1.3.4 工程实现要点


前言

        记录一下对在vivado FFT IP核中如何设置缩放因子的理解。

1.快速傅里叶变换(FFT)

1.1 FFT的来源    

         传感器的信号是数字信号,所以无法进行连续时间的傅里叶变换;离散时间傅里叶变换针对长度为无穷长的信号,其得到的频谱是连续的,与实际信号的情况也不一致; 离散时间傅里叶级数针对离散的信号,频谱的结果也是离散的,最有可能由计算机实现,但其针对周期信号。 实际上,计算机采用“离散傅里叶变换(DFT)”对信号开展分析—基本原理:将采集到的信号(信号长度为

N_0

看成周期为

N_0

的离散时间周期信号,并计算其DTFS。

        所以有离散傅里叶变换(DFT)的出现:对于长度为

N_0

的信号

x[n]

,将其看成周期为

N_0(\Omega = \frac{2\pi}{N_0})

的周期信号(这种做法是合理,结果会有误差,但不影响分析),其公式为:

正变换:

F(k\Omega_0) =\sum_{k=0}^{N_0-1} x[n] e^{-j k \Omega_0 n}

逆变换:

x[n] =\frac{1}{N_0} \sum_{k=0}^{N_0-1} F(k\Omega_0) e^{j k \Omega_0 n}

其物理含义为:将信号分解为一系列简单的复指数序列(

e^{0j\Omega n}

e^{j\Omega n}

e^{j2\Omega n}

,...,

e^{j(N_0-1)\Omega n}

).

        DFT的计算量:N个点直接计算DFT的总运算量为:

N^2

次复数乘法,

N(N-1)

次复数加法。分析1024个点的序列,需要进行百万次的复乘,消耗的资源比较多。

        因此有了快速傅里叶的诞生。FFT是其中一种常用的方法。它是快速实现DFT的一种算法,有效降低了计算量。

        FFT简单的理解就是2分法,因为将N个点分为两组

\frac{N}2{}

个点计算,仅需要

\frac{N^2}{4} + \frac{N^2}{4} =\frac{N^2}{2}

次复数乘法,相当于减少一半,依次类推,FFT复数乘法运算量

\frac{N}{2}log_2N

,两者对比:

        具体的计算就不阐述了。从 DFT 的定义式可见,由于计算过程中缺少

$1/N$

的归一化系数,其运算结果的幅值规模会随点数

$N$

呈线性增长。在基于 FPGA 的定点化实现中,这意味着动态范围的逐级扩张:基-2 架构的 FFT 每一级蝶形运算会导致数值放大 2 倍,共需进行

$\log_2 N$

级运算;相应地,基-4 架构每一级会放大 4 倍,共进行

$\log_4 N$

级。因此,必须在 IP 核中合理配置缩放因子(Scaling Factor),以抑制各级运算中的位宽增长,防止定点数溢出导致的结果失真。

1.2 FFT IP 缩放因子设置实例

 

        在代码中FFT IP配置是16384点 FFTRadix-4 架构、缩放系数 16'haaaa(这是因为FFT IP最大点数是65536(

4^8

),Radix-4 架构最大有8级,从而IP核预留的位数。因为设置的FFT IP核点数可配,因此可设置NFFT=1024。对于 1024点的 Radix-4 算法,计算一共分为 5 级,因为

$4^5 = 1024$


缩放配置的底层含义:16'haaaa

 config_SCALE_SCH = 16'haaaa 转换成二进制是:

[10] [10] [10] [10] [10] [10] [10] [10]

在 Xilinx FFT IP 中,每 2位控制一个计算级的缩放:

  • 00: 不移位(可能溢出,但精度最高)。
  • 01: 右移 1 位(数值除以 2)。
  • 10: 右移 2 位(数值除以 4)
  • 11: 右移 3 位(数值除以 8)。

每一级的计算与“减肥”过程

输入准备:24 位原始数据

ADC 数据进入 FFT 模块,实部和虚部各占 24 位。此时,数据的动态范围是

$2^{24}$

Stage 1:第一次蝶形运算
  • 计算:Radix-4 蝶形单元同时读取 4 个样点,乘以旋转因子并相加。
  • 位宽增长:4个数相加,理论最大值会变为原来的 4倍,即位宽增加 2位(从 24 位变成 26 位)。
  • 缩放(10:硬件执行 >> 2(右移 2 位)。
  • 结果:26 位 - 2 位 = 24 位。数据大小回到了安全范围,防止溢出。
Stage 2:第二次蝶形运算
  • 计算:处理 Stage 1 输出的中间结果。
  • 位宽增长:数值再次面临潜在的 $4$ 倍增长。
  • 缩放(10:再次执行 >> 2
  • 结果:维持在 24位}
Stage 3 & 4:持续压缩
  • 过程同上。每一级都允许数值翻 4$倍,但随即被 >> 2 砍掉。这两级完成后,已经处理了 4^4 = 256个点之间的相关性。
Stage 5:最后一级(第 1024 个点对齐)
  • 计算:完成最后的复数加减。
  • 缩放(10:执行最后一次 >> 2
  • 最终输出:输出的 data_out_Real 依然是 24 位

与MATLAB对比

        整个过程可以用一个公式来表达你的输出幅值

$X_{out}$

与理论真值

$X_{true}$

的关系:

$X_{out} = \frac{X_{true}}{2^{2 \times 5}} = \frac{X_{true}}{1024}$

        这意味着,你为了保证在 100% 满量程正弦波 输入时硬件不溢出,将最终的计算结果缩小了 1024倍。

维度输入 (Input)输出 (Output)损失 (Loss)
位宽24 bit24 bit0 bit
数值精度原生精度有效信息被右移了 10 位丢失了低 10 位的细节
动态范围~144 dB~144 dB约 60 dB 被推入噪声层

        这里需要区分MATLAB的FFT运算。尽管二者均涉及 1/N 的归一化处理,但 MATLAB 基于浮点运算,能够完整保留计算过程中的微弱细节;相比之下,FPGA 的定点运算在逐级缩放过程中不可避免地会引入量化损失。因此,缩放因子(Scaling Factor)的配置必须根据输入信号的动态范围进行‘动态适配’:针对满量程(Full-scale)信号,应优先采用保守的缩放策略以确保数值不溢出;而对于非满量程信号(如幅值减半),则可适当降低缩放比例(如每级仅缩小 2 倍),从而在动态范围与系统稳定性之间取得最优平衡。”举个例子:

        如果信号不是占满全量程(ADC 没爆表),可以尝试 “前松后紧” 的策略。修改 config_SCALE_SCH

  • 建议方案16'h5555(即 01 01 01 01 01 01 01 01
  • 效果:每一级只右移 1 位(除以 2)。这样总共只缩小了 2^5 = 32 倍。
  • 好处:能多找回 5 位  的精度,让 10Hz 附近的微弱扫频信号更加清晰。最后在MATLAB中处理的时候再做除以2^5即可。

缩放因子过大的后果

        信号太弱:如果你观测的扫频信号本身就很微弱,经过这 5 级 >> 2 的连续截断,信号的能量可能直接被移成了 0。这就是为什么有时候背景看起来非常干净(全是蓝色),因为微弱的噪声和信号都被“缩放”没了。

        量化噪声:每一级右移都会产生舍入误差。由于可能没有开启 Convergent Rounding(收敛舍入),这些误差会累积,导致频谱的底部并不平整。

在你的“星载数字系统”笔记中,Block Floating Point (BFP,块浮点) 模式可以作为解决“弱信号丢失”与“强干扰溢出”矛盾的高级方案。它在硬件开销与计算精度之间取得了一种近乎完美的平衡。

以下是为你整理的详细介绍,可直接填入你的笔记 1.3 章节


1.3 进阶探索:Block Floating Point (BFP) 模式

1.3.1 什么是块浮点?

        块浮点是一种特殊的定点运算模式。如果说手动缩放(Scaled)是每一步都“切掉”固定的位数,那么块浮点就是“按需剪裁”。

        在每一级蝶形运算开始前,硬件会实时扫描该块数据(Block)中的最大值,根据其量级动态决定本级是否需要右移缩放。

    • M(Mantissa):FFT 输出的尾数(即 24-bit 数据)。
    • E(Exponent):块阶码(BLK_EXP),记录了整帧数据总共缩放的位数。

核心公式

$X_{final} = M \times 2^{-E}$

1.3.2 BFP 的运行机制:逐级动态监测

        对于1024点(5 级)Radix-4 FFT:

  •  峰值检测:在 Stage 1 计算前,硬件检测输入数据的峰值。
  • 自适应缩放
    • 若信号极弱(如空间背景噪声):硬件检测到没有溢出风险,本级执行 00(不移位),保留全部 24 bit 精度。
    • 若信号极强(如强电磁干扰):硬件检测到峰值接近饱和,本级自动执行 10(右移 2 位) 防溢出。
  1. 阶码累加:每一级自动缩放的位数都会累加到 BLK_EXP 中。最终输出时,所有频点共享这一个阶码。

1.3.3 BFP 模式的优势分析

        在“波动探测”任务中,BFP 模式相比 16'haaaa 手动缩放具有显著优势:

  • 最大化信噪比 (SNR):它能在处理微弱扫频信号时,自动找回因手动缩放丢失的低 10 位精度,动态范围提升最高可达 60 dB.
$DR_{gain} = 20 \times \log_{10}(2^{10}) = 20 \times 3.01 = \mathbf{60.2\text{ dB}} $
  • 防止系统“致盲”:手动缩放(如 16'h5555)在遇到突发强干扰时会溢出导致数据错乱;BFP 则能瞬间收缩量程,保证系统不崩溃。
  • 数学归一化:它在输出时自动完成了类似 1/N 的量级调整,且该调整是基于信号实际功率动态进行的。

1.3.4 工程实现要点

  • 接口变化:没有了缩放因子,但需要监听 m_axis_data_tuser 总线,从中提取 BLK_EXP 字段。
  • 资源权衡:BFP 需要额外的逻辑进行峰值比较,可能会增加 Hold 违例 的修复难度。

后端还原:在 MATLAB 解析时,真实的幅值需补回阶码:

$X_{true} =\frac{ X_{parsed} \cdot 2^{BLK\_EXP}}{N}$

        以上就是本次的笔记记录。

Read more

【Actix Web】Rust Web开发实战:Actix Web框架全面指南

【Actix Web】Rust Web开发实战:Actix Web框架全面指南

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,ZEEKLOG全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Rust开发,Python全栈,Golang开发,云原生开发,PyQt5和Tkinter桌面开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi,flask等框架,云原生K8S,linux,shell脚本等实操经验,网站搭建,数据库等分享。 所属的专栏:Rust语言通关之路 景天的主页:景天科技苑 文章目录 * Rust Web开发 * 一、Actix Web框架概述 * 1.1 Actix Web的特点 * 1.2 Actix Web与其他Rust框架比较

《AI IDE 巅峰对决:Cursor vs. Kiro 全方位深度体验报告(附 Token 消耗与避坑指南)》

《AI IDE 巅峰对决:Cursor vs. Kiro 全方位深度体验报告(附 Token 消耗与避坑指南)》

一、 开篇:当“快”不再是唯一标准 在过去的一年里,我们习惯了 Cursor 带来的“快”——Tab 一键补全,Chat 随问随答。但在面对复杂的企业级项目时,我们常遇到这样的痛点: * 对话轮数多了,AI 开始“胡言乱语”或忘记之前的设定。 * 代码写得很快,但文档没跟上,维护起来全是“债”。 * 功能写完了,一跑全是 Bug,排查时间比写代码还长。 这时,AWS 推出的 Kiro 给了我们另一种选择。它不急着写代码,而是先写文档。这听起来很反直觉,但在实际工程中,这可能是解决“代码屎山”的良药。 二、 核心体验:两种截然不同的编程哲学 1. Cursor:Chat-First(聊天优先)—— 速度即正义 Cursor

nlp_structbert_sentence-similarity_chinese-large保姆级教程:Streamlit Session State管理多用户会话

nlp_structbert_sentence-similarity_chinese-large保姆级教程:Streamlit Session State管理多用户会话 你是不是也遇到过这样的问题?用Streamlit做了一个很酷的AI应用,比如这个中文句子相似度分析工具,但每次刷新页面,输入框里的文字就没了,计算过的结果也清空了。或者,当你想同时为多个用户提供服务时,发现他们的数据会互相干扰。 今天,我就来手把手教你解决这个问题。我们将以nlp_structbert_sentence-similarity_chinese-large这个强大的中文语义匹配工具为例,深入讲解如何用Streamlit的Session State来优雅地管理多用户会话,让你的应用从“玩具”升级为“工具”。 学完这篇教程,你将掌握: 1. Session State的核心概念和工作原理。 2. 如何为你的AI应用(如句子相似度计算)添加稳固的会话记忆。 3. 实现多用户数据隔离的实战技巧。 4. 避免常见陷阱,打造更专业的Web应用。 准备好了吗?让我们开始吧。 1. 环境准备与项目回顾

医疗AI场景下算法编程的深度解析(2026新生培训讲稿)(八)

医疗AI场景下算法编程的深度解析(2026新生培训讲稿)(八)

第15章 模型融合与集成策略 在机器学习竞赛和实际应用中,模型融合(Model Ensemble)是提升预测性能的利器。通过组合多个不同的基模型,集成策略能够综合各个模型的优势,抵消单个模型的偏差和方差,从而获得比任何单一模型更稳定、更准确的预测结果。在医疗AI领域,模型融合同样具有重要价值——面对复杂多模态的医疗数据,单一模型往往难以全面捕捉所有信息,而融合多个异质模型可以提升诊断的鲁棒性和准确性。本章将从集成学习的基本思想出发,系统介绍常见的模型融合方法,包括投票法、平均法、Stacking、Blending等,并通过实战案例展示如何构建融合模型来提升疾病预测性能。 15.1 集成学习的基本思想 集成学习(Ensemble Learning)的核心思想是“三个臭皮匠,顶个诸葛亮”——通过结合多个学习器来完成学习任务,通常可以获得比单一学习器更优越的泛化性能。根据个体学习器的生成方式,集成学习主要分为两大类: * Bagging:并行训练多个独立的基学习器,然后通过平均或投票进行结合。典型代表是随机森林。Bagging主要降低方差。 * Boosting:串行训练基学习