基于FPGA的CARRY4 抽头延迟链TDC延时仿真

基于FPGA的CARRY4 抽头延迟链TDC延时仿真

基于FPGA的CARRY4 抽头延迟链TDC延时仿真

1 摘要

基于 FPGA 的 CARRY4 抽头延迟链 TDC,核心是利用 Xilinx FPGA 中 CARRY4 进位单元的固定、低抖动级联延迟构建抽头延迟线,通过锁存信号传播位置实现亚纳秒级时间测量,单级进位延迟约 10–30 ps,级联后可覆盖更大时间量程并结合粗计数拓展动态范围。TDC设计利用FPGA的专用进位链硬件,实现了亚纳秒级的时间测量精度,这是传统数字方法无法达到的。虽然需要校准,但其性能优势和数字集成的便利性使其成为高精度时间测量的首选方案。

2 CARRY4 核心结构与抽头延迟链原理

2.1 CARRY4 单元结构(Xilinx 7 系列 / UltraScale)
每个 CARRY4 包含 4 个 MUXCY 进位选择器与 4 个 XORCY 异或门,形成 4 级进位链,CIN 为进位输入,COUT 为级联输出,CO0–CO3 为 4 个抽头输出,可引出每级进位节点信号。级联方式:上一级 CARRY4 的 COUT 接下一级 CIN,形成连续延迟链;抽头 CO0–CO3 分别连接 D 触发器,由停止信号(Stop)或全局时钟同步锁存。

在这里插入图片描述

2.2. 抽头延迟链 TDC 工作原理
①起始信号(Start)从链首 CIN 注入,沿 CARRY4 级联路径以固定延迟传播。
②停止信号触发所有抽头处的 D 触发器锁存当前传播状态,形成 “温度计码”。
③温度计码经编码器转换为二进制细时间值 T_fine,结合粗计数器(如系统时钟计数)得到总时间 T_total=T_coarse+T_fine。

在这里插入图片描述

)

3 Xilinx FPGA CARRY4 单元核

3.1 CARRY4的工作原理
PGA的CARRY4进位单元,每个CARRY4的COUT连接到下一个CARRY4的CIN,这样级联起来,形成延时链。

CYINIT → MUXCY0 → CO[0] → MUXCY1 → CO[1] → MUXCY2 → CO[2] → MUXCY3 → CO[3] ↗ ↗ ↗ ↗ ↗ ↗ ↗ ↗ DI[0] S[0] DI[1] S[1] DI[2] S[2] DI[3] S[3] 

模拟内部结构

`timescale 1ps/1ps module CARRY5( output [3:0] CO, output [3:0] O, input CI, input CYINIT, input [3:0] DI, input [3:0] S ); // 模拟Xilinx CARRY4的行为 reg [3:0] co_int; always @* begin // 传播延迟:每个CARRY4约10ps #10; // CARRY4逻辑 co_int[0] = (CYINIT & S[0]) | (CI & S[0]) | DI[0]; co_int[1] = (co_int[0] & S[1]) | DI[1]; co_int[2] = (co_int[1] & S[2]) | DI[2]; co_int[3] = (co_int[2] & S[3]) | DI[3]; end assign CO = co_int; assign O = co_int; endmodule 

3.2 Xilinx FP

Read more

NotoSansSC-Regular.otf介绍与下载

总体概述 NotoSansSC-Regular.otf 是 “思源黑体” 家族中用于简体中文的常规字重(Regular)的 OpenType 字体文件。它是由 Adobe 与 Google 合作领导开发的一款开源字体,旨在作为一款“全能型”字体,满足各种场景下的中文显示需求。 核心特点详解 1. 名称含义 * Noto: 名称源于“No Tofu”(没有豆腐)。其目标是消除在计算机上因缺少对应字体而显示的空白方块(俗称“豆腐块”☐),实现“无豆腐”的全球文字支持。 * SansSC: “Sans” 表示无衬线体,“SC” 代表“简体中文”。所以 NotoSansSC 就是“用于简体中文的无衬线字体”。 * Regular: 指字体的字重为“常规”或“正常”,不是细体(Light)

【ComfyUI】蓝耘元生代 | ComfyUI深度解析:高性能AI绘画工作流实践

【ComfyUI】蓝耘元生代 | ComfyUI深度解析:高性能AI绘画工作流实践

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈人工智能与大模型应用 ⌋ ⌋ ⌋ 人工智能(AI)通过算法模拟人类智能,利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络(如ChatGPT),经海量数据训练后能完成文本生成、图像创作等复杂任务,显著提升效率,但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合,未来需平衡技术创新与伦理风险,推动可持续发展。 文章目录 * 前言 * 一、ComfyUI简介 * (一)ComfyUI概述 * (二)ComfyUI与WebUI的对比 * (三)ComfyUI使用场景 * 二、蓝耘元生代平台简介 * 三、蓝耘元生代平台工作流(ComfyUI)创建 * (一)注册蓝耘智算平台账号 * (二)部署ComfyUI工作流 * (三)ComfyUI初始界面解析 * (四)完成创建工作流 * 四、技术文档说明 * (一)平台架构深度剖析

FPGA机器学习终极指南:hls4ml完整教程与快速上手技巧

FPGA机器学习终极指南:hls4ml完整教程与快速上手技巧 【免费下载链接】hls4mlMachine learning on FPGAs using HLS 项目地址: https://gitcode.com/gh_mirrors/hl/hls4ml 想象一下,你训练了一个强大的深度学习模型,但它只能在云端运行,响应延迟让你无法接受。现在,一个名为hls4ml的开源项目正在改变这一现状,让机器学习模型能够直接在FPGA上实现低延迟、高吞吐量的推理加速。这个项目正迅速成为FPGA机器学习领域的明星工具!✨ 为什么选择FPGA推理加速? 在人工智能应用爆炸式增长的今天,传统的CPU和GPU已经无法满足某些场景对低延迟和能效比的严苛要求。FPGA凭借其可重构性和并行处理能力,在边缘计算、实时处理等领域展现出巨大优势。 hls4ml的核心优势: * 🚀 超低延迟:模型直接在硬件上运行,无需操作系统开销 * ⚡ 高吞吐量:充分利用FPGA的并行计算能力 * 🔋 能效比优异:相比GPU,FPGA在特定任务上能效比更高 * 🎯 定制化程度高:可根据具体需求优化硬件实现

FPGA 在大模型推理中的应用

FPGA 在大模型推理中的应用

我在之前详细讲过FPGA在AI中的优势,如果我们要利用它的优势,去优化大模型推理过程,应该有哪些方案(只是理论推导)。下面简单罗列一下: 方案一:OffLoad  MoE Expert MLP         MoE的MLP阶段,有一个重要的运算特点。         因为专家多(DeepSeek V3.1 的MoE有 256个专家,每个专家需要运算的batch就相对较小,因为路由后分散了,运算就变成一个细太碎的运算。此时,运算的瓶颈不在计算而在调度,权重读取上。         在这种情况下,如果使用GPU来完成,按GPU运算的特点,它强在并行大数据,多批次的运算。此时,每个运算依赖于SM,而SM可以需要有Kernel的准备,大量的时间会花在kernel的准备上,而好不容易准备好,但要处理的数据量极少,读取权重数据的时间反而显得更长,真正的运算并行很少(可能一个专家就算一个token),因为数据量小(注意:不同网络层的运算是不能并行的。唯一可以并行的是路由计算得到的N个专家)。 这时,有点象大饭店的大锅炒菜,最合理的方式是,一锅同时炒多份,但现在来的人少,一个大锅每次只能