Qwen3论文阅读

1、核心架构改进:

1)注意力机制

采用了 GQA (Grouped Query Attention) 以提高推理效率

什么是GQA注意力机制?

介于传统的多头注意力机制以及极简的MQA注意力机制之间,目标为平衡生成速度以及模型精度

首先我们先看一看多头注意力机制以及多询注意力机制的区别

MHA (Multi-Head Attention): 每个 Query (Q) 都有对应的 Key (K) 和 Value (V)。虽然效果最好,但在推理时需要缓存大量的 KV 状态(KV Cache),导致内存占用高,推理速度慢。

MQA (Multi-Query Attention): 所有的 Q 共享同一组 K 和 V。这极大地减少了内存占用和数据传输,速度极快,但由于表达能力大幅下降,模型性能(准确度)通常会受损。

GQA:把query分成若干组每一组共享KV

详细的计算流程:

假设我们输入一个128length的token序列,模型中存储了一个计算query的矩阵Wq,大小为[512,512],X x Wq = Total_Q,得到一个[128,512]的结果,后续在物理上计算结束后,会将512维切位8份,每一份即为[128,64]于是就得到了8个query

若分为两组那么每四个query为一组,共享一个KV。

2)RMSNorm

RMSNorm 是标准 LayerNorm(层规范化)的一种简化变体,旨在提高计算效率

节省计算开销

此外还采用了前置规范化

后置规范化(post-norm):

先做子层操作(如 Attention 或 FFN)并与输入相加,最后整体做一次 Norm。

前置规范化 (Pre-Norm):

输入先经过 Norm,然后再进入子层操作,最后将结果加回原始输入。

3)SwiGLU激活函数:

传统的激活函数如下所示

SwiGLU 的核心改进是将 GLU 中的 Sigmoid 函数替换为 Swish 激活函数。

在 Qwen3 的 Transformer 块中,前馈网络(FFN)层利用 SwiGLU 进行非线性变换,计算逻辑由三个矩阵组成Wgate,Wup,Wdown,SiLU为Swish函数

门控分支:当x小于0时,SiLU激活函数迅速将其切断,变为0,切断其向下传递的渠道

QK-Norm:在进行注意力计算时,对Q和K进行归一化(防止注意力瘫缩)

对Q和K进行归一化的方法:对每个矩阵的每个向量进行归一化,在训练过程中,必须要使用半精度来节省显存,所以进行归一化恢复对向量的敏感并且防止数据溢出。

2、后训练pipeline

整体的结构如下所示:

旗舰模型采用四阶段的后训练模式,前面两个阶段注重思考推理,后面的阶段注重非思考能力

1)长思维链冷启动阶段(long-CoT Cold Start)

采用qwen2.5-72B进行数据清洗,剔除掉不需要思考可以直接回答的问题

冷启动的作用:

建立初始模式:通过精选的子集进行初始训练,旨在模型中植入基础的推理模式。

为 RL 留白:训练时故意不追求极端的推理表现,以防模型产生路径依赖,从而为后续强化学习(RL)阶段留出更大的改进空间和灵活性。

极简主义:在冷启动阶段,倾向于最小化训练样本数和训练步数,保持模型的“潜力”

2)推理强化学习阶段(Reasoning-RL)

采用GRPO的强化学习策略进行训练

训练策略:

使用Batch Size(大批次)和高 Rollouts(每个问题生成多个答案)。

使用 Off-policy(离线策略)训练来提高样本效率。

通过控制**熵(Entropy)**来平衡“探索”与“利用”,防止模型过早陷入局部最优。

3)通用强化学习阶段(general rl)

奖励函数的设计:

奖励类型原理优点解决的问题
(1) 基于规则 (Rule-based)用代码/正则硬性判断极其精准,不可作弊判断格式是否正确、长度是否达标、代码是否可运行。
(2) 有参考答案的模型打分 (Model-based w/ Ref)让 Qwen2.5-72B 对照标准答案给学生(新模型)打分灵活且标准明确避免规则太死板导致的“误判”(比如意思对但字不同)。
(3) 无参考答案的模型打分 (Model-based w/o Ref)用人类偏好训练出一个 Reward Model(奖励模型)直接打分适用范围最广处理主观问题,提升回答的“高级感”和好感度。

4)强对弱蒸馏(Strong-to-Weak Distillation)

stage1:离线蒸馏

将大模型的答案直接喂给小模型进行训练,相当于直接是sft阶段监督训练。

stage2:在线蒸馏

让小模型自己针对某个问题生成回答(On-policy)。与此同时,让更强大的老师模型(如 Qwen3-235B)也针对同样的问题给出一个输出概率分布,计算 KL 散度(KL Divergence):通过数学手段缩小“学生”和“老师”在逻辑预测上的差距(对齐 Logits)。

Read more

基于FPGA的CARRY4 抽头延迟链TDC延时仿真

基于FPGA的CARRY4 抽头延迟链TDC延时仿真

基于FPGA的CARRY4 抽头延迟链TDC延时仿真 1 摘要 基于 FPGA 的 CARRY4 抽头延迟链 TDC,核心是利用 Xilinx FPGA 中 CARRY4 进位单元的固定、低抖动级联延迟构建抽头延迟线,通过锁存信号传播位置实现亚纳秒级时间测量,单级进位延迟约 10–30 ps,级联后可覆盖更大时间量程并结合粗计数拓展动态范围。TDC设计利用FPGA的专用进位链硬件,实现了亚纳秒级的时间测量精度,这是传统数字方法无法达到的。虽然需要校准,但其性能优势和数字集成的便利性使其成为高精度时间测量的首选方案。 2 CARRY4 核心结构与抽头延迟链原理 2.1 CARRY4 单元结构(Xilinx 7 系列 / UltraScale) 每个 CARRY4 包含 4 个 MUXCY 进位选择器与 4 个 XORCY 异或门,

轻小说机翻机器人:5分钟打造你的日语小说翻译神器

轻小说机翻机器人:5分钟打造你的日语小说翻译神器 【免费下载链接】auto-novel轻小说机翻网站,支持网络小说/文库小说/本地小说 项目地址: https://gitcode.com/GitHub_Trending/au/auto-novel 轻小说机翻机器人是一款开源的日语小说翻译工具,支持网络小说、文库小说和本地小说的全自动翻译处理。作为专业的轻小说翻译解决方案,它能自动抓取日本主流平台内容,提供多引擎翻译服务,并构建完整的阅读生态,让日语阅读不再受语言障碍困扰。 🚀 核心价值:为什么选择轻小说机翻机器人? 全自动小说采集系统 内置对Kakuyomu、小説家になろう等6大日本小说平台的支持,只需输入小说名称或URL,系统即可智能抓取内容并完成翻译。通过crawler/src/lib/domain/目录下的平台适配代码(如kakuyomu.ts、syosetu.ts),实现对不同网站结构的精准解析。 多引擎翻译切换 集成百度翻译、有道翻译、OpenAI类API、Sakura等多种翻译器,满足从快速浏览到深度阅读的不同需求。翻译引擎实现代码位于web/src/do

【花雕学编程】Arduino BLDC 之使用6.5寸轮毂电机的智能动态跟随机器人底盘

【花雕学编程】Arduino BLDC 之使用6.5寸轮毂电机的智能动态跟随机器人底盘

基于Arduino与6.5寸轮毂电机的智能动态跟随机器人底盘,是一种将一体化高扭矩动力单元与实时感知决策系统深度融合的移动平台方案。该方案利用轮毂电机“轮内驱动”的紧凑特性,结合Arduino(或ESP32等兼容主控)的灵活控制能力,旨在实现对人、车或特定目标的平滑、抗扰、低延迟的伴随运动。 一、 主要特点 一体化高扭矩动力架构 直驱/准直驱结构:6.5寸轮毂电机将BLDC电机、行星减速器(常见速比1:10~1:30)、轮毂及轴承高度集成。省去了皮带、链条等中间传动环节,传动效率高(>85%),结构紧凑,底盘离地间隙低,重心稳。 大扭矩低速特性:得益于内置减速,轮毂电机在低转速下可输出极大扭矩(峰值可达8~25 N·m),能轻松驱动30~80kg级底盘,具备良好的爬坡(<5°)和越障(过坎)能力,且低速运行平稳无顿挫。

用OpenClaw做飞书ai办公机器人(含本地ollama模型接入+自动安装skills+数据可视化)

用OpenClaw做飞书ai办公机器人(含本地ollama模型接入+自动安装skills+数据可视化)

执行git clone https://github.com/openclaw/openclaw克隆项目,执行cd openclaw进入项目 执行node --version看看node的版本是否大于等于22(没有node.js需自行安装),再执行npm install -g pnpm安装作为包管理器,并执行pnpm install安装依赖 首次执行pnpm ui:build构建 Web UI(会先安装 ui/ 目录的依赖) 执行pnpm build构建主程序 执行pnpm openclaw onboard --install-daemon运行配置向导(安装守护进程),完成初始化 按键盘右箭头选择Yes,同样Yes 任选一个模型提供商都行,没有对应的提供商的密钥可以跳过,如果是本地模型选vLLM(需用vLLM框架启动模型,有性能优势,但原生vLLM仅完全支持Linux的cuda)、Custom Provider(可以连接任何 OpenAI 或 Anthropic 兼容的端点,