【大模型教程——第二部分:Transformer架构揭秘】第1章:Transformer核心揭秘 (The Transformer Architecture)【上】
第1章:Transformer核心揭秘 (The Transformer Architecture)
“Attention is all you need.” - Vaswani et al., 2017
重要提示:本章是全书中唯一详细讲解Transformer架构的章节。后续章节将直接引用本章内容,不再重复讲解核心机制。
本章将带你深入Transformer的每一个核心组件,从数学原理到代码实现,从直觉理解到工程优化。掌握了这些,你就掌握了现代大语言模型的基石。
目录
* 一、宏观蓝图:编码器-解码器架构
* 原始Transformer:翻译机器的设计
* 1. 编码器(Encoder):理解输入
* 2. 解码器(Decoder):生成输出
* 3. 信息流动:编码器到解码器
* 现代简化:为何只用编码器或解码器?
* 二、核心组件一:自注意力机制(Self-Attention)
* 1. 为什么需要自注意力?从一个问题开始