LLM(Large Language Model,大型语言模型)是指那些规模庞大、参数数量众多的深度神经网络模型,用于理解和生成自然语言文本。在自然语言处理(NLP)领域有着广泛的应用,因其强大的语言理解和生成能力,能够处理各种复杂的文本任务,包括但不限于翻译、问答、文本摘要、对话、文本分类、情感分析、代码生成、创作辅助等。
架构特点
LLM 主要基于 Transformer 架构,该架构由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。Transformer 通过自注意力机制(Self-Attention)来捕捉文本中的长距离依赖关系,无需像循环神经网络(RNN)那样逐词递归处理,从而实现了并行计算,大大提高了训练和推理速度。典型的 LLM 结构包括:
- Encoder-Decoder 结构:如用于机器翻译的模型。Encoder 将输入文本编码成一个固定长度的上下文向量,Decoder 则依据该上下文向量生成目标语言的文本输出。
- Encoder-only 结构:如 BERT 等。主要用于文本理解任务,如文本分类、命名实体识别、问答系统中的问题理解等。Encoder-only 模型通过双向编码整个输入文本,生成具有上下文信息的隐藏状态,这些隐藏状态可以被后续任务特定的层利用来进行预测。
- Decoder-only 结构:如 GPT 系列模型,用于生成文本、补全句子、撰写文章等任务。这类模型直接根据给定的提示(prompt)或前文上下文生成连续的文本输出。
参数规模
LLM 的'大型'体现在其巨大的参数量,通常在数十亿到数千亿之间。例如,GPT-3(Generative Pretrained Transformer 3)拥有约 1750 亿个参数,而更近期的模型如 GPT-4、PaLM、Chinchilla、阿里云的通义千问等,参数量可能更大。大规模参数使得模型能够学习到更丰富的语言规律和模式,提高其泛化能力和表达复杂语言结构的能力。
预训练与微调
LLM 通常遵循'预训练 - 微调'的范式:
- 预训练:模型首先在大规模无标注文本数据(如互联网抓取的文本、书籍、百科等)上进行自我监督学习,通过自回归语言建模任务(预测下一个词的概率)或掩码语言建模任务(预测被遮蔽词语的概率)来学习语言的通用表示。
- 微调:预训练后的模型可以针对特定任务进行微调,即在特定领域的有标注数据上进一步训练,调整模型参数以适应特定任务的需求,如问答系统的回答生成、文本分类任务的标签预测等。
应用场景
LLM 在实际中主要应用在以下场景:
- 生成文本:创作诗歌、故事、新闻文章、代码片段等。
- 理解与问答:解答各类问题,提供精准的信息检索和知识解析能力。
- 对话交互:进行自然、流畅的人机对话,模拟人类对话风格,用于客户服务、虚拟助手、教育辅导等领域。
- 文本翻译:实现高质量的跨语言翻译,无需显式对齐的平行语料。
- 文本摘要:自动生成文本摘要,提炼关键信息。
- 代码生成:根据自然语言描述编写或补全代码,助力编程和软件开发。
以下整理了目前主流的开源大模型资源。
国外开源模型
| 模型链接 | 模型描述 |
|---|---|
| OpenSora | 高效复现类 Sora 视频生成的完全开源方案 |
| GROK | 3140 亿参数的混合专家模型,迄今参数量最大的开源 LLM |
| Gemma | 谷歌商场开源模型 2B,7B 免费商用,开源第一易主了 |
| Mixtral | Mistral AI 的突破性大模型,超越 GPT3.5,重新定义人工智能性能和多样性 |
| Mistral7B | '欧洲 OpenAI'的'最强 7B 开源模型',全面超越 13B 的 Llama2 |


