基于 FPGA 的数字图像处理系统设计与实现

基于 FPGA 的数字图像处理系统设计与实现 | 极客日志

特性	CPU	GPU	FPGA
并行粒度	线程级	SIMD/SIMT	像素级/门级
典型功耗（TOPS/W）	0.1–0.5	2–10	10–50
处理延迟	高（ms 级）	中（μs 级）	极低（ns 级）
可重构性	不可变	固定架构	完全可编程
实时性保障	弱	中等	强

graph LR A[摄像头 MIPI CSI-2] --> B(FPGA) B --> C{并行处理引擎} C --> D[去噪滤波] C --> E[边缘检测] C --> F[特征提取] D --> G[VGA/DSI 显示] E --> G F --> H[ARM 处理器决策]

module pixel_processor ( input clk, input rst_n, input [7:0] pix_in, output reg [7:0] pix_out );
    always @(posedge clk or negedge rst_n)
        begin
            if (!rst_n) pix_out <= 8'd0;
            else pix_out <= pix_in + 8'd10;
        end
endmodule

端口名称	方向	位宽	功能说明
clk	input	1	主系统时钟，驱动所有时序逻辑
rst_n	input	1	异步/同步复位信号，低电平有效
pix_in	input	8	当前输入像素值（原始图像）
pix_out	output	8	处理后的输出像素（亮度 +10）

wire [7:0] max_pix;
assign max_pix = (pix_a > pix_b) ? pix_a : pix_b;

always @(posedge clk)
    begin
        if (enable) reg_out <= data_in;
    end

特性	组合逻辑	时序逻辑
是否有时钟	否	是（通常为 posedge clk）
延迟特性	固定传播延迟（由门级决定）	受时钟周期限制
资源占用	LUT 为主	FF + LUT
应用场景	运算、译码、MUX	缓冲、同步、状态保持
可综合性	高（避免 latch inference）	高（推荐使用同步设计）

// 示例：错误使用阻塞赋值造成顺序依赖
always @(posedge clk)
    begin
        a = b;
        b = c;
    end
// 正确做法：使用非阻塞赋值实现并行更新
always @(posedge clk)
    begin
        a <= b;
        b <= c;
    end

flowchart TD
A[Clock Rising Edge] --> B{Evaluate RHS}
B --> C[a ← old_b]
B --> D[b ← old_c]
C --> E[Update LHS Simultaneously]
D --> E
E --> F[a = old_b, b = old_c]

module rgb_to_gray_converter (
    input clk,
    input pixel_valid,
    input [23:0] rgb_in,
    output reg pixel_valid_out,
    output reg [7:0] gray_out
);
    always @(posedge clk)
        begin
            if (pixel_valid)
                begin
                    // Y = 0.299R + 0.587G + 0.114B，定点化为整数运算
                    gray_out <= (rgb_in[23:16] * 77 + rgb_in[15:8] * 150 + rgb_in[7:0] * 29) >> 8;
                    pixel_valid_out <= 1'b1;
                end
            else
                begin
                    pixel_valid_out <= 1'b0;
                end
        end
endmodule

// 双触发器同步器
module sync_ffs (
    input src_clk,
    input dst_clk,
    input async_signal,
    output reg synced_signal
);
    reg meta1, meta2;
    always @(posedge dst_clk)
        begin
            meta1 <= async_signal;
            meta2 <= meta1;
            synced_signal <= meta2;
        end
endmodule

flowchart LR
A[Async Signal] --> B[Flop1 - Metastable Risk]
B --> C[Flop2 - Stabilized]
C --> D[Stable Synced Output]

function [7:0] clamp;
    input [8:0] val;
    begin
        if (val > 255) clamp = 8'hFF;
        else if (val < 0) clamp = 8'h00;
        else clamp = val[7:0];
    end
endfunction
// 使用示例
always @(posedge clk)
    begin
        if (pixel_valid) pix_out <= clamp(pix_in + offset);
    end

方法	是否可综合	是否允许延迟	适用场景
function	是（纯组合）	否	数学运算、查表、裁剪
task	部分可综合	是（含# delay）	测试平台专用

// RGB888 像素总线定义
reg [7:0] r_data; // 红色分量
reg [7:0] g_data; // 绿色分量
reg [7:0] b_data; // 蓝色分量
// 合并成 24 位总线
assign pixel_out = {r_data, g_data, b_data};

格式名称	每像素位宽	数据组织方式	典型应用场景
RGB565	16 位	R(5)+G(6)+B(5)	低端 LCD 显示
RGB888	24 位	R(8)+G(8)+B(8)	高清视频采集
YUV422	16 位	Y,U 交替传输	MIPI CSI-2 摄像头
RAW10	10 位原始	Bayer 模式排列	工业相机

flowchart LR
subgraph "YUV422 行数据流 (YUYV)"
    A[Y0] --> B[U0] --> C[Y1] --> D[V0]
    style A fill:#f9f,stroke:#333
    style B fill:#bbf,stroke:#333
    style C fill:#f9f,stroke:#333
    style D fill:#bbf,stroke:#333
end
note right of D: "两个像素共用 U0,V0"

always @(posedge clk)
    begin
        if (pixel_valid)
            begin
                case (state)
                    S_Y:
                        begin
                            y_curr <= data_in[15:8]; // 当前 Y 值
                            state <= S_UV;
                        end
                    S_UV:
                        begin
                            u_curr <= data_in[15:8]; // U 值
                            v_curr <= data_in[7:0]; // V 值
                            state <= S_Y;
                        end
                endcase
            end
    end

参数	值（单位：像素/行）	说明
Active Pixels	640	有效显示宽度
H Front Porch	16	行末空白间隔
H Sync Pulse	96	HSYNC 脉冲宽度
H Back Porch	48	行前空白间隔
Total Line	800	单行总周期
Active Lines	480	有效行数
V Front Porch	10	帧末空白行
V Sync Pulse	2	VSYNC 持续 2 行
V Back Porch	33	帧前空白行
Total Frame	525	总扫描行数

// VGA Timing Generator (640x480 @ 60Hz)
parameter H_ACTIVE = 640;
parameter H_FRONT = 16;
parameter H_SYNC = 96;
parameter H_BACK = 48;
parameter V_ACTIVE = 480;
parameter V_FRONT = 10;
parameter V_SYNC = 2;
parameter V_BACK = 33;
reg [9:0] h_count, v_count;
reg h_sync, v_sync, de;

always @(posedge clk_pixel)
    begin
        h_count <= h_count + 1;
        if (h_count == (H_ACTIVE + H_FRONT + H_SYNC + H_BACK - 1))
            begin
                h_count <= 0;
                v_count <= v_count + 1;
                if (v_count == (V_ACTIVE + V_FRONT + V_SYNC + V_BACK - 1))
                    v_count <= 0;
            end
        // 生成 HSYNC（低电平有效）
        h_sync <= !(h_count >= H_ACTIVE + H_FRONT && h_count < H_ACTIVE + H_FRONT + H_SYNC);
        // 生成 VSYNC（低电平有效）
        v_sync <= !(v_count >= V_ACTIVE + V_FRONT && v_count < V_ACTIVE + V_FRONT + V_SYNC);
        // 数据使能（仅在有效区域内为高）
        de <= (h_count < H_ACTIVE) && (v_count < V_ACTIVE);
    end

// 定点亮度对比度调节单元
input [7:0] pixel_in;
input signed [15:0] gain_alpha; // Q8.8 format
input signed [7:0] bias_beta; // 整数偏移
output reg [7:0] pixel_out;
reg [23:0] product; // 8 * 16 = 24 位乘积
reg [15:0] temp_val;

always @(*)
    begin
        product = {8'd0, pixel_in} * gain_alpha; // 扩展为 16 位后相乘
        temp_val = product[23:8]; // 右移 8 位（除以 256）
        temp_val = temp_val + {{8{bias_beta[7]}}, bias_beta}; // 符号扩展加偏置
    end

always @(posedge clk)
    begin
        if (temp_val > 8'hFF) pixel_out <= 8'hFF;
        else if (temp_val < 8'h00) pixel_out <= 8'h00;
        else pixel_out <= temp_val[7:0];
    end

// LUT-based brightness/contrast
reg [7:0] lut[0:255];
initial begin
    for (integer i = 0; i < 256; i = i + 1)
        begin
            int tmp = i * alpha_fixed + beta_fixed;
            lut[i] = (tmp > 255) ? 8'hFF : (tmp < 0) ? 8'h00 : tmp[7:0];
        end
end

flowchart TB
A[Input Pixel] --> B[Expand to 16-bit]
B --> C[Multiply with Alpha]
C --> D[Right Shift 8 bits]
D --> E[Add Beta]
E --> F[Saturate & Clamp]
F --> G[Output Pixel]

always @(posedge clk)
    begin
        // Stage 1: Expand
        pix_ext <= {8'd0, pixel_in};
        // Stage 2: Multiply
        prod_reg <= pix_ext * gain_alpha;
        // Stage 3: Shift + Add
        shifted <= prod_reg[23:8];
        sum_reg <= shifted + {{8{bias_beta[7]}}, bias_beta};
        // Stage 4: Clamp
        if (sum_reg > 255) pixel_out <= 8'hFF;
        else if (sum_reg < 0) pixel_out <= 8'h00;
        else pixel_out <= sum_reg[7:0];
    end

// AXI-Lite Slave Interface Snippet
always @(posedge s_axi_aclk)
    begin
        if (s_axi_awvalid && s_axi_wvalid && !reg_write_busy)
            begin
                case (s_axi_awaddr[5:2])
                    4'h0: gain_alpha <= s_axi_wdata[15:0];
                    4'h4: bias_beta <= s_axi_wdata[7:0];
                endcase
            end
    end

assign process_enable = de && pixel_valid;

% MATLAB Script: PSNR Evaluation
original = imread('frame_orig.png');
enhanced = imread('frame_proc.png');
mse = mean((double(original) - double(enhanced)).^2);
max_val = 255;
psnr = 10 * log10(max_val^2 / mse);
fprintf('PSNR: %.2f dB\n', psnr);

// Verilog 代码片段：3x3 滑动窗口行缓冲设计
reg [7:0] line_buf_0 [WIDTH]; // 第 0 行缓冲
reg [7:0] line_buf_1 [WIDTH]; // 第 1 行缓冲
reg [7:0] pixel_in; // 当前输入像素
integer col;

always @(posedge clk or posedge rst)
    begin
        if (rst)
            begin
                for (int i = 0; i < WIDTH; i++)
                    begin
                        line_buf_0[i] <= 8'd0;
                        line_buf_1[i] <= 8'd0;
                    end
            end
        else
            begin
                // 移位更新缓冲行
                for (col = 0; col < WIDTH - 1; col = col + 1)
                    begin
                        line_buf_0[col] <= line_buf_0[col + 1];
                        line_buf_1[col] <= line_buf_1[col + 1];
                    end
                line_buf_0[WIDTH-1] <= pixel_in;
                line_buf_1[WIDTH-1] <= line_buf_0[WIDTH-2]; // 假设来自上一阶段
            end
    end

滤波器类型	核尺寸	主要用途	MAC 操作次数/像素	是否可分离
平均滤波	3×3	去噪	9	是
Sobel X	3×3	水平边缘检测	9	否
Prewitt Y	3×3	垂直边缘检测	9	否
高斯平滑	5×5	抗混叠模糊	25	是（近似）

function integer mirror_boundary;
    input integer addr;
    input integer max_index;
    begin
        if (addr < 0) mirror_boundary = -addr;
        else if (addr > max_index) mirror_boundary = 2 * max_index - addr;
        else mirror_boundary = addr;
    end
endfunction

graph TD
A[原始图像 4x4] --> B[零填充]
A --> C[复制填充]
A --> D[镜像填充]
subgraph 输出比较
    B --> E["边界出现黑色条带"]
    C --> F["边缘颜色突变"]
    D --> G["平滑过渡，保留结构"]
end

// 示例：带四舍五入的右移操作
wire signed [15:0] sum_raw; // 累加结果
wire signed [7:0] result;
assign result = (sum_raw + 8'd128) >>> 8; // Q8.8 -> 8bit unsigned

// 平均滤波核心逻辑（假设已获取 3x3 窗口数据）
reg [7:0] win[8:0]; // 存储 9 个邻域像素
wire [10:0] sum = win[0]+win[1]+win[2]+ win[3]+win[4]+win[5]+ win[6]+win[7]+win[8];
wire [7:0] avg_out = (sum + 4) >> 3; // 加 4 实现四舍五入

核大小	LUT 数量	触发器数	最大工作频率
3×3	~85	~60	185 MHz
5×5	~210	~150	160 MHz
7×7	~400	~280	140 MHz

// 输入：3x3 窗口像素
reg [7:0] pix[2][2]
wire signed [9:0] gx_val = -pix[0][0] + pix[0][2] -2*pix[1][0] + 2*pix[1][2] -pix[2][0] + pix[2][2];
wire signed [9:0] gy_val = -pix[0][0] -2*pix[0][1] -pix[0][2] +pix[2][0] +2*pix[2][1] +pix[2][2];
wire [9:0] abs_gx = gx_val[9] ? ~gx_val + 1 : gx_val;
wire [9:0] abs_gy = gy_val[9] ? ~gy_val + 1 : gy_val;
assign grad_out = (abs_gx + abs_gy) >> 2; // 归一化至 8bit

flowchart LR
A[原始图像] --> B[Sobel 梯度计算]
B --> C[8 方向梯度方向量化]
C --> D[非极大值抑制电路]
D --> E[高低阈值比较器]
E --> F[Hysteresis 边缘追踪 FSM]
F --> G[二值边缘图输出]

参数	含义	FPGA 映射方式
$ f(x,y) $	输入图像像素值	8 位无符号整数（ `reg [7:0]` )
$ F(u,v) $	频域系数（复数）	定点格式 `reg signed [15:0]` 实/虚部分开
$ N $	变换长度	必须为 2 的幂次，便于蝶形迭代
$ W_N^{kn} $	旋转因子（Twiddle Factor）	存储于 Block RAM 预计算表中

graph TD
A[X1] --> C[+]
B[X2] --> C
C --> D[Y0]
A --> E[-]
B --> F[W * X2]
F --> E
E --> G[Y1]

module butterfly_stage (
    input clk,
    input rst,
    input signed [15:0] x1_real, x1_imag,
    input signed [15:0] x2_real, x2_imag,
    input signed [15:0] w_real, w_imag,
    output reg signed [15:0] y0_real, y0_imag,
    output reg signed [15:0] y1_real, y1_imag
);
    always @(posedge clk or posedge rst)
        begin
            if (rst)
                begin
                    y0_real <= 0; y0_imag <= 0;
                    y1_real <= 0; y1_imag <= 0;
                end
            else
                begin
                    // 复数乘法：w * x2
                    automatic signed [31:0] wr_x2r = w_real * x2_real;
                    automatic signed [31:0] wr_x2i = w_real * x2_imag;
                    automatic signed [31:0] wi_x2r = w_imag * x2_real;
                    automatic signed [31:0] wi_x2i = w_imag * x2_imag;
                    automatic signed [16:0] temp_real = (wr_x2r - wi_x2i) >>> 15; // 定点右移还原
                    automatic signed [16:0] temp_imag = (wr_x2i + wi_x2r) >>> 15; // 蝶形加减
                    y0_real <= x1_real + temp_real[15:0];
                    y0_imag <= x1_imag + temp_imag[15:0];
                    y1_real <= x1_real - temp_real[15:0];
                    y1_imag <= x1_imag - temp_imag[15:0];
                end
        end
endmodule

function [9:0] transpose_addr;
    input [9:0] addr; // 假设 N=32, 则 log2(N)=5, 地址共 10 位 (x[4:0], y[4:0])
    begin
        transpose_addr = {addr[4:0], addr[9:5]}; // swap x and y bits
    end
endfunction

y0_real <= (x1_real + temp_real) >>> 1;
y0_imag <= (x1_imag + temp_imag) >>> 1;

def cordic_cos_sin(theta, iterations=16):
    x, y, z = 1.0, 0.0, theta
    for i in range(iterations):
        d = 1 if z < 0 else -1
        x_new = x - d * y * (2**(-i))
        y_new = y + d * x * (2**(-i))
        z_new = z - d * atan(2**(-i))
        x, y, z = x_new, y_new, z_new
    Kn = 0.607252935 # 收敛增益
    return Kn*x, Kn*y

Index	Angle (rad)	cos_val (Q15)
0	0	32768
1	π/16	31843
2	π/8	29696
…	…	…

flowchart LR
A[原始图像] --> B[颜色空间转换 YUV420]
B --> C[8x8 分块]
C --> D[DCT 变换]
D --> E[量化矩阵除法]
E --> F[Zigzag 扫描]
F --> G[霍夫曼编码]
G --> H[输出比特流]

(* rom_style = "block" *)
reg [31:0] twiddle_rom[0:255];
initial begin
    $readmemh("twiddle_factors.hex", twiddle_rom);
end

N = 256;
k = 0:N-1;
W = exp(-1i*2*pi*k/N);
W_fix = round(real(W)*32768) + 1i*round(imag(W)*32768);
fid = fopen('twiddle_factors.hex','w');
for i = 1:N
    fprintf(fid, '%04x%04x\n', bitand(W_fix(i), 65535), bitshift(W_fix(i), -16));
end
fclose(fid);

always @(posedge clk)
    begin
        stage1_in <= pixel_in;
        stage2_in <= stage1_out;
        stage3_in <= stage2_out;
        ...
        dct_out <= final_result;
    end

模块	时钟域	数据宽度	接口类型
FFT Core	100 MHz	32-bit (real/imag)	Native
FIFO	Dual-clock	32-bit	Async FIFO
AXI Master	125 MHz	64-bit	AXI4

参数	值（像素/行）	说明
行周期总长度	800	包括有效像素 + 消隐区
有效像素宽度	640	实际显示区域
HSYNC 脉冲宽度	96	同步脉冲持续时间
前沿消隐（Front Porch）	16	HSYNC 前空白间隔
后沿消隐（Back Porch）	48	HSYNC 后空白间隔
帧周期总行数	525	包括有效行 + 垂直消隐
有效行数	480	显示帧高度
VSYNC 脉冲宽度	2	场同步脉冲长度
垂直前沿消隐	10	VSYNC 前空白行
垂直后沿消隐	33	VSYNC 后空白行

// VGA Timing Generator Module
module vga_timing_generator (
    input clk_pixel, // 像素时钟 (25.175 MHz)
    input rst_n,
    output reg hsync,
    output reg vsync,
    output reg [9:0] x, // 当前行内像素位置
    output reg [9:0] y, // 当前帧内行号
    output reg de // Data Enable (有效显示区域标志)
);
    parameter H_ACTIVE = 640;
    parameter H_TOTAL = 800;
    parameter V_ACTIVE = 480;
    parameter V_TOTAL = 525;

    always @(posedge clk_pixel or negedge rst_n)
        begin
            if (!rst_n)
                begin
                    x <= 0; y <= 0;
                    hsync <= 1'b1; vsync <= 1'b1; de <= 1'b0;
                end
            else
                begin
                    x <= x + 1;
                    if (x == H_TOTAL - 1)
                        begin
                            x <= 0;
                            y <= y + 1;
                            if (y == V_TOTAL - 1) y <= 0;
                        end
                    // HSYNC generation (active low, 96 pixels wide)
                    hsync <= (x >= H_ACTIVE + 16 && x < H_ACTIVE + 16 + 96) ? 1'b0 : 1'b1;
                    // VSYNC generation (active low, 2 lines)
                    vsync <= (y >= V_ACTIVE + 10 && y < V_ACTIVE + 10 + 2) ? 1'b0 : 1'b1;
                    // Data Enable: only during active display region
                    de <= (x < H_ACTIVE && y < V_ACTIVE);
                end
        end
endmodule

graph TD
A[开始新帧] --> B{Y < 480?}
B -- 是 --> C{X < 640?}
C -- 是 --> D[输出有效像素]
C -- 否 --> E[进入水平消隐]
E --> F[生成 HSYNC 脉冲]
F --> G[X 复位为 0, Y++]
G --> B
B -- 否 --> H[进入垂直消隐]
H --> I[生成 VSYNC 脉冲]
I --> J[Y 复位为 0]
J --> A

R[7] --- 75Ω ---+
R[6] --- 150Ω--+
----> R_out
R[5] --- 300Ω--+

FPGA Pin	Resistor Value	Connected To	Color Bit
R0	470Ω	Red VGA	LSB
R1	240Ω	Red VGA
R2	120Ω	Red VGA	MSB
G0~G2	同上	Green VGA	3-bit
B0, B1	330Ω, 160Ω	Blue VGA	2-bit

reg [31:0] timing_table [0:3][5:0];
initial begin
    timing_table[0] = '{640, 800, 480, 525, 25_175_000, 60}; // 640x480@60Hz
    timing_table[1] = '{800, 1056, 600, 628, 40_000_000, 60}; // 800x600@60Hz
    ...
end

graph LR
A[FPGA Logic] --> B[AXI4-Stream Video]
B --> C[MIPI DSI IP Core]
C --> D[GT Transceivers]
D --> E[Differential Pairs → DSI Panel]

module async_fifo_vga_to_dsi (
    input wr_clk, // 来自 VGA 像素时钟域 (25MHz)
    input rd_clk, // 来自 DSI TX 时钟域 (可编程 PLL 输出)
    input [23:0] din,
    input wr_en,
    output reg [23:0] dout,
    output reg empty,
    output reg full
);
    localparam DEPTH = 512;
    reg [8:0] wr_ptr, rd_ptr;
    reg [8:0] wr_ptr_gray, rd_ptr_gray;
    reg [8:0] rd_ptr_sync, rd_ptr_sync2;
    reg [8:0] wr_ptr_sync, wr_ptr_sync2;
    reg [23:0] mem [0:DEPTH-1];

    // 写操作（wr_clk 域）
    always @(posedge wr_clk)
        begin
            if (wr_en && !full)
                begin
                    mem[wr_ptr] <= din;
                    wr_ptr <= wr_ptr + 1;
                end
            // 格雷码编码指针同步到 rd_clk 域
            wr_ptr_gray <= wr_ptr ^ (wr_ptr >> 1);
        end

    // 读操作（rd_clk 域）
    always @(posedge rd_clk)
        begin
            if (!empty)
                begin
                    dout <= mem[rd_ptr];
                    rd_ptr <= rd_ptr + 1;
                end
            // 同步写指针到读时钟域
            rd_ptr_sync <= rd_ptr_gray;
            rd_ptr_sync2 <= rd_ptr_sync;
            wr_ptr_sync <= rd_ptr_sync2 ^ (rd_ptr_sync2 >> 1);
            wr_ptr_sync2 <= wr_ptr_sync;
        end

    // 空满判断（使用格雷码解码）
    assign empty = (rd_ptr == wr_ptr_sync2);
    assign full = (rd_ptr + 1 == wr_ptr_sync2);
endmodule

特性	VGA	MIPI DSI
接口类型	模拟	数字差分
最大分辨率	1024×768 @70Hz	4K @60Hz（4-lane）
引脚占用	~10 GPIO	2~8 LVDS pairs
传输距离	<5m（易受干扰）	<1m（板级连接）
功耗	中等（持续驱动）	低（可进入 LP 模式）
FPGA 资源消耗	低（纯逻辑）	高（需 GT 收发器）
开发难度	低（适合初学者）	高（需 IP 核+PCB 设计）

特性	块状 RAM (BRAM)	分布式 RAM
存储单元位置	专用嵌入式内存模块	利用 LUT（查找表）实现
容量大小	大（每块 36Kb 或 18Kb）	小（通常<1Kb）
访问延迟	中等（1~2 个时钟周期）	极低（单周期）
端口支持	支持双端口甚至真双端口	单/双端口，受限于 LUT 结构
功耗	较低（集中式管理）	较高（分布广泛）
可配置性	高（可配置深度、宽度、读写模式）	有限（依赖 LUT 容量）
适用场景	帧缓冲、行缓冲、大窗口缓存	卷积核暂存、状态寄存器、小矩阵运算

// 示例：使用分布式 RAM 实现 3x3 像素窗口缓存（用于边缘检测）
reg [7:0] pixel_window [8:0]; // 9 个 8 位寄存器，模拟 3x3 窗口
always @(posedge clk)
    begin
        if (enable)
            begin
                // 滑动窗口更新逻辑
                pixel_window[0] <= pixel_window[1];
                pixel_window[1] <= pixel_window[2];
                pixel_window[2] <= current_pixel;
                pixel_window[3] <= pixel_window[4];
                pixel_window[4] <= pixel_window[5];
                pixel_window[5] <= next_line_reg; // ...其余行类似
            end
    end

graph TD
A[输入像素流] --> B{是否首帧?}
B -- 是 --> C[初始化 BRAM]
B -- 否 --> D[读取 BRAM 中 Row[n-1] 和 Row[n]]
D --> E[与当前 Row[n+1] 构成 3x3 窗口]
E --> F[执行卷积运算]
F --> G[写入当前行为 BRAM Row[n] 位置]
G --> H[地址指针递增]
H --> I[输出处理后像素]

// BRAM 双行缓冲控制器示例
reg [9:0] addr; // 地址指针（假设每行 1024 像素）
reg [7:0] row_buf_A [1023:0]; // 映射到 BRAM Block 1
reg [7:0] row_buf_B [1023:0]; // 映射到 BRAM Block 2

always @(posedge clk)
    begin
        if (wr_en)
            begin
                if (write_to_A) row_buf_A[addr] <= in_pixel;
                else row_buf_B[addr] <= in_pixel;
            end
        // 读取上一行和当前行
        prev_row_pixel <= read_from_A ? row_buf_A[addr] : row_buf_B[addr];
        curr_row_pixel <= read_from_A ? row_buf_B[addr] : row_buf_A[addr];
    end

// 双端口 BRAM 实例化模板（Xilinx IP 核封装）
dual_port_bram #(
    .DATA_WIDTH(8),
    .ADDR_WIDTH(10)
) bram_inst (
    .clka(clk_a), .wea(we_a), .addra(addr_a), .dina(data_in_a), .douta(data_out_a),
    .clkb(clk_b), .web(we_b), .addrb(addr_b), .dinb(data_in_b), .doutb(data_out_b)
);

graph LR
FPGA --> MIG_IP
MIG_IP --> CMD[Command Bus]
MIG_IP --> ADDR[Address Bus]
MIG_IP --> DATA[Data Bus (72-bit)]
DATA --> DDR_CHIP[DDR4 SDRAM x4 chips]
CLK_REF[200MHz Ref Clock] --> MIG_IP

// AXI4 写通道信号简要说明
axi_awvalid, axi_awready, axi_awaddr, axi_awlen, axi_wvalid, axi_wready, axi_wdata, axi_wstrb, axi_bvalid, axi_bready, axi_bresp

基于 FPGA 的数字图像处理系统设计与实现

基于 FPGA 的数字图像处理系统设计与实现

1. FPGA 在图像处理中的优势分析

并行处理能力与硬件级流水线设计

能效比与确定性响应特性

与 CPU/GPU 的对比分析

2. Verilog 语言在 FPGA 图像处理中的应用

2.1 Verilog HDL 基础与硬件行为建模

2.1.1 模块结构与端口定义

2.1.2 组合逻辑与时序逻辑的实现方式

组合逻辑示例：像素最大值选择器

时序逻辑示例：带使能的寄存器级

2.1.3 阻塞赋值与非阻塞赋值的语义差异

2.2 图像数据流的 Verilog 描述方法

2.2.1 像素级并行处理的数据通路设计

2.2.2 同步复位与时钟域管理策略

2.2.3 利用 task 与 function 封装图像操作函数

3. 数字图像表示与基本操作（亮度/对比度调整）

3.1 数字图像的 FPGA 表示模型

3.1.1 灰度图像与 RGB 色彩空间编码

3.1.2 像素格式（8 位、10 位、YUV422）及其硬件映射

3.1.3 行同步与帧同步信号的时序规范（VSYNC/HSYNC）

3.2 亮度与对比度调节算法原理

3.2.1 线性灰度变换数学模型

3.2.2 增益与偏置参数的定点数表示

3.2.3 动态范围压缩与溢出处理机制

3.3 基于 Verilog 的亮度对比度调节模块实现

3.3.1 流水线结构设计提升吞吐率

3.3.2 参数可配置接口（通过寄存器写入调节系数）

3.3.3 实时视频流下的无缓存处理方案

3.4 功能验证与主观视觉效果评估

3.4.1 使用真实摄像头输入进行板级测试

3.4.2 输出图像质量的 PSNR 指标计算（辅助 MATLAB 分析）

4. 图像区域处理技术（滤波、边缘检测）

4.1 局部邻域操作的基本原理

4.1.1 卷积核与滑动窗口机制

4.1.2 边界填充策略（零填充、镜像填充）

4.1.3 固定点运算中的精度损失控制

4.2 典型空间域滤波器的 FPGA 实现

4.2.1 平均滤波器去噪设计与资源占用分析

4.2.2 Sobel 算子边缘检测的并行架构优化

4.2.3 Prewitt 与 Canny 边缘检测的硬件适配改进

5. 图像频域变换原理与应用（傅立叶变换、DCT）

5.1 离散傅里叶变换（DFT）与快速傅里叶变换（FFT）的数学基础

5.1.1 DFT 的基本定义与二维扩展

5.1.2 FFT 算法原理与蝶形运算结构

5.1.3 行列分离法实现二维 FFT

5.1.4 定点量化误差与精度补偿策略

5.2 离散余弦变换（DCT）在图像压缩中的作用

5.2.1 DCT 的数学定义与能量集中特性

5.2.2 快速 DCT 算法与 CORDIC 近似实现

5.2.3 基于分布式 RAM 的查找表优化

5.2.4 DCT 在 JPEG 编码流程中的集成

5.3 频域变换在 FPGA 上的系统级优化

5.3.1 基于 Block RAM 的旋转因子存储

5.3.2 流水线与并行化设计提升吞吐率

5.3.3 跨时钟域同步与 DMA 接口设计

6. FPGA 图像处理系统数据接口设计（VGA、MIPI DSI）

VGA 接口的 FPGA 实现原理与驱动设计

6.1.1 VGA 协议基础与时序规范分析

Mermaid 流程图：VGA 扫描时序状态流转

6.1.2 数模转换电路设计与 RGB 信号驱动

6.1.3 多分辨率支持与动态模式切换

MIPI DSI 接口的 FPGA 实现与高速链路设计

6.2.1 MIPI DSI 协议分层结构解析

6.2.2 Xilinx FPGA 中 MIPI DSI 控制器 IP 的应用

6.2.3 差分信号布局布线与信号完整性优化

6.2.4 跨时钟域数据缓冲与帧同步策略

6.2.5 实测性能对比与选型建议

7. 图像数据存储方案（BRAM 与分布式 RAM）

7.1 FPGA 内部存储资源类型对比：BRAM vs 分布式 RAM

7.2 基于 BRAM 的行缓冲与帧缓冲架构设计

行缓冲工作原理流程图：

7.3 多端口 BRAM 的设计与冲突规避策略

7.4 外部存储扩展：DDR3/DDR4 SDRAM 集成方案

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具