大模型技术详解：架构、训练与微调

在深入研究 LLaMA、ChatGLM 和 Falcon 等大语言模型时，我们不难发现它们在技术实现上有着诸多共通之处与独特差异。例如，这些模型在 tokenizer（分词器）的选择上，可能会根据模型的特性和应用场景来定制；位置编码（Positional Encoding）的实现方式也各具特色，对模型性能的影响不容忽视。此外，Layer Normalization（层归一化）和激活函数（Activation Function）的选择与运用，都直接影响到模型的训练速度和准确性。

大模型技术详解：架构、训练与微调

大模型技术详解：架构、训练与微调

1. 大语言模型的细节

1.0 Transformer 与 LLM

1.1 模型结构

1.2 训练目标

1.3 Tokenizer

1.4 位置编码

1.5 层归一化

1.6 激活函数

1.7 Multi-query Attention 与 Grouped-query Attention

1.8 并行 Transformer Block

1.9 总结 - 训练稳定性

2. LLM 的分布式预训练

2.0 点对点通信与集体通信

2.1 数据并行

2.2 张量并行

2.3 流水线并行

2.4 3D 并行

2.5 混合精度训练

2.6 激活重计算

2.7 ZeRO，零冗余优化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调？

3.1 Prompt Tuning

3.2 Prefix Tuning

3.3 Adapter

3.4 LLaMA Adapter

3.5 LoRA

3.6 实验比较

4. 参考文献

更多推荐文章

相关免费在线工具

大模型技术详解：架构、训练与微调

大模型技术详解：架构、训练与微调

1. 大语言模型的细节

1.0 Transformer 与 LLM

1.1 模型结构

1.2 训练目标

1.3 Tokenizer

1.4 位置编码

1.5 层归一化

1.6 激活函数

1.7 Multi-query Attention 与 Grouped-query Attention

1.8 并行 Transformer Block

1.9 总结 - 训练稳定性

2. LLM 的分布式预训练

2.0 点对点通信与集体通信

2.1 数据并行

2.2 张量并行

2.3 流水线并行

2.4 3D 并行

2.5 混合精度训练

2.6 激活重计算

2.7 ZeRO，零冗余优化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调？

3.1 Prompt Tuning

3.2 Prefix Tuning

3.3 Adapter

3.4 LLaMA Adapter

3.5 LoRA

3.6 实验比较

4. 参考文献

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具