LLaMA论文阅读笔记

优质文章学习记录

06 Apr 2026 — 8 min read

论文：https://arxiv.org/pdf/2302.13971

1、为什么要做这个研究（理论走向和目前缺陷） ?
之前的效果的模型要么不开源，要么用了私有数据训练，完全开源的效果都不咋地。
2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?
用完全开源的数据(1.4万亿tokens)，并没有大的离谱模型（7B到65B）, 做了一系列前面研究做的优化，如RMSNorm的Pre-normalization减少计算量，FFN的激活函数替换为SwiGLU增强表现能力更好，旋转位置编码RoPE提升模型长度外推性。这些优化基本都成了后续大模型设计的标配。
3、发现了什么（总结结果，补充和理论的关系）?
算是首个完全开源且效果和闭源模型相当的LLM模型，候选qwen也是基于这个模型改进得到的。

摘要

发布LLaMA系列模型，参数量从7B到65B量级，训练数据在1.5万亿tokens,且全是开源的数据，13B参数量的比175B的GPT-3性能还要好，65B的模型达到当前最好的大语言模型效果。

1 引言

在算力固定的情况下，小模型+大数据比大模型+小数据效果更好，而且小模型+大数据可能训练时间很长，但是推理时长比较短。

2 方案

2.1 预训练数据

全是开源数据，大部分都是其他LLM训练用的数据。
英文爬虫获取数据（67%）。预处理之前别人通过爬虫获得的（2017-2020）文献，但做了以下处理，1）数据去重。2）用fastText线性分类器区分是否英文数据，把非英文的踢掉。3）ngram语言模型滤除内容质量底下的数据。4）训练了一个分类器区分是否来自维基百科数据，把非维基百科的数据丢弃掉。
C4数据（15%）。预处理包括去重以及去非英文数据。
github数据（4.5%）。去重，去低质量数据。
Wiki百科（4.5%）。2022年1月-2022年月的数据。把超链接、评论、及废话去掉。
Gutenberg and Books3 [4.5%]。来自书本的预料库，也做了去重。
ArXiv [2.5%]. 移除文章第一节前的所有内容，包括作者信息也被移除。
Stack Exchange [2%]. 有高质量问答数据的网站,类似stackoverflow。

分词器： BPE.
最终获得共计1.4T（1.4万亿）个训练tokens，大多数训练数据只会被训练一次，除了维基百科和书本里的数据训练了两次。

2.2 架构

基于transformer了架构，并混合了后续模型提出的各种优化方法。包括：
Pre-normalization [GPT3]. 使用RMSNorm在transofmer子层输入之前先做归一化，而不是像标准的transfomer一样在输出之后做LayerNorm归一化，可以提升训练的稳定性。注：LayerNorm和RMSNorm的主要区别在于是否有中心化，LayerNorm会减去特征均值，实现数据中心化，而RMSNorm没有这一步，故不会中心化。在大模型训练时，中心化不是必须的，而缩放是必要的，且RMSNorm计算量更小，

SwiGLU activation function [PaLM]。SwiGLU替换FFN层中ReLU层。SwiGLU中的G即gate，引入了门控（0~1）之间权重逐元素和线性变换后的原始值相乘。虽然增加了计算量，但在大模型中表现能力更好，基本是现代大模型的标配。

Rotary Embeddings [GPTNeo]。即RoPE相对位置编码。位置编码一般有绝对位置编码，即可学习的位置编码或标准的transfomer中使用的Sinusoidal位置编码。可学习的位置编码缺点是模型不具有长度外推性，因为位置编码矩阵的大小是预设的，若对其进行扩展，将会破坏模型在预训练阶段学习到的位置信息。Sinusoidal位置编码还具有远程衰减的性质，具体表现为对于两个相同的词向量，如果它们之间的距离越近，则他们的内积分数越高，反之则越低。Sinusoidal位置编码中的正弦余弦函数具备周期性，并且具备远程衰减的特性，所以理论上也具备一定长度外推的能力。而RoPE作者的出发点为：通过绝对位置编码的方式实现相对位置编码。Sinusoidal位置编码通过加法把相对位置信息融入到内容信息中，但需要模型隐式学习这种相对位置信息，而RoPE通过旋转（乘法）把相对位置信息融入到内容信息中，是一种显式的注入，不需要隐式学习，在长度外推性方面，RoPE比Sinusoidal更好。参考
https://hub.baai.ac.cn/view/32862 获取更详细的信息。

2.3 优化器

AdamW 优化器，cosine learning rate schedule等

2.4 高效实现

做了一些优化提升训练速度。首先是采用高效因果多头注意力（from xformers）减少内存占用和运行时间，即下三角矩阵只计算需要的部分，不用的部分不存不算，从而减少显存占用。其次，保存线性层的激活值，避免反向传播时还要重新计算。
最终训练65B的模型，1.4万亿的tokens数据，需要80G A100训练21天。

3 主要结果

在20个benchmarks做了实验。

Zero-shot: 提供任务描述和一道测试题输入到模型中，让模型生成问题解答或选择正确答案。
Few-shot: 提供一些任务解答案例和一道测试题，让模型生成问题解答或选择正确答案。
对比的模型：

闭源：GPT-3 2020, Gopher 2021, Chinchilla 2022, PaLM 2022
开源：OPT 2022, GPT-J 2021, GPT-Neo 2022, 以及指令微调的模型OPT-IML, Flan-PaLM.

3.1 常识推理

8个benchmark： BoolQ， PIQA，SIQA ， HellaSwag， WinoGrande， ARC easy/challenge, OpenBookQA.

3.2 书本知识问答

两个benchmark: Natural Questions和TriviaQA

3.3 阅读理解

RACE benchmark,来源于中国初高中英语测试的阅读理解题。

3.4 数学推理

2 benchmark: MATH, GSM8k，初高中数学题。
Minerva是PaLM在arxiv以及数学网站数据微调出来的模型，故效果很好。

3.5 代码生成

2个benchmark: HumanEval， MBPP

3.6 大规模多任务语言理解

MMLU benchmark

3.7 训练时的性能进化

训练时评估模型性能，一般情况下，训的tokens越多，性能越好。

4 指令微调

加点指令微调后，模型效果大幅提升。

5 偏见、戾气以及错误

6 碳排放

7 相关研究

8 结论

开源了不同大小的LLaMA模型，通过相对较小模型+大量数据实现不错的效果，且所有数据都是开源的。

【红黑树进阶】手撕STL源码：从零封装RB-tree实现map和set

👇点击进入作者专栏：《算法画解》 ✅ 《linux系统编程》✅ 《C++》 ✅ 文章目录 * 一. 源码及框架分析 * 1.1 STL源码中的设计思想 * 1.2 STL源码框架分析 * 二. 模拟实现map和set（实现复用红黑树的框架） * 2.1 红黑树节点的定义 * 2.2 红黑树的基本框架 * 2.3 解决Key的比较问题：KeyOfT仿函数 * 2.4 支持insert插入 * 2.5 map和set的insert封装 * 三. 迭代器的实现 * 3.1 迭代器结构设计 * 3.2 迭代器的++操作 * 3.3 迭代器的--操作 * 3.4 RBTree中的迭代器接口 * 四. map和set对迭代器的封装 * 4.

微信网页版完全解决方案：wechat-need-web插件让浏览器聊微信不再受限

微信网页版完全解决方案：wechat-need-web插件让浏览器聊微信不再受限【免费下载链接】wechat-need-web让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 你是否遇到过微信网页版无法访问的问题？wechat-need-web插件正是为解决这一痛点而生，它能让你在Chrome、Edge和Firefox浏览器中顺畅使用微信网页版，无需安装臃肿的客户端，轻松实现浏览器内的微信沟通。为什么微信网页版访问总是失败？很多用户反馈，直接访问微信网页版时经常遇到"无法登录"或"网络错误"等提示。这是因为微信对网页端访问采取了严格的验证机制，普通浏览器请求往往会被服务器拒绝。对于需要在工作电脑上使用微信的用户来说，这无疑带来了极大的不便。 wechat-need-web如何解决网页版访问难题？ wechat-need-web插件通过智能技术手段，在浏览器请求中动态添加必要的验证参数，让微信服务器

前端大文件分片上传实现与断点续传方案（含完整代码讲解）

在上传大文件（如视频、安装包、模型文件）时，直接上传容易出现以下问题： * 文件过大 → 浏览器/服务器容易超时 * 上传过程中断 → 重新上传浪费时间 * 网络波动 → 上传失败率高因此，大文件分片上传 + 断点续传 + 秒传校验是目前最通用、最稳定的解决方案。本文将通过一段完整可运行的示例代码，详细讲解如何在前端实现分片上传、断点续传、服务端校验等关键功能。 ✨ 实现效果 * ✔ 自动切片（默认 5MB/片，可配置） * ✔ 查询已上传分片（断点续传） * ✔ 自动跳过已上传的片段 * ✔ 每片上传成功后重新校验 * ✔ 所有片段上传完成后自动触发合并 * ✔ 错误处理完善 📌 核心代码（uploadLargeFile）以下代码就是本文的核心逻辑，也是你提供的代码版本，经过梳理解释后会更易理解： export async function uploadLargeFile({ file, fileId, id, chunkSize = 5 * 1024

3个步骤搞定Dify工作流Web交互界面开发：从登录表单到状态管理

3个步骤搞定Dify工作流Web交互界面开发：从登录表单到状态管理【免费下载链接】Awesome-Dify-Workflow分享一些好用的 Dify DSL 工作流程，自用、学习两相宜。 Sharing some Dify workflows. 项目地址: https://gitcode.com/GitHub_Trending/aw/Awesome-Dify-Workflow 在低代码开发领域，Dify工作流为AI应用提供了强大的可视化开发能力，但开发者常面临三大痛点：如何设计直观的用户交互界面？怎样实现安全可靠的用户认证流程？以及如何在不同节点间有效管理用户状态？本文将通过"设计理念→实现步骤→调试技巧"三阶结构，带你用低代码方式构建企业级Web交互界面，重点解决表单交互、用户认证和跨节点状态管理难题。设计理念：Dify交互界面的核心架构 Dify工作流的Web交互设计基于"节点驱动"架构，将传统前端开发中的页面、组件和逻辑拆分为可配置的节点组合。这种设计理念带来三大优势：无需编写HTML/CSS即可生成界面、通过节点连接实现业务逻辑、

摘要