LLM 模型入门与主流开源资源盘点

LLM 是基于 Transformer 架构的大型语言模型，具备强大的自然语言理解与生成能力。文章介绍了其架构类型、参数规模、预训练与微调范式及应用场景，并整理了国内外主流开源模型列表供参考。

MqEngine发布于 2025/2/7更新于 2026/4/190 浏览

LLM（Large Language Model，大型语言模型）是指那些规模庞大、参数数量众多的深度神经网络模型，用于理解和生成自然语言文本。在自然语言处理（NLP）领域有着广泛的应用，因其强大的语言理解和生成能力，能够处理各种复杂的文本任务，包括但不限于翻译、问答、文本摘要、对话、文本分类、情感分析、代码生成、创作辅助等。

架构特点

LLM 主要基于 Transformer 架构，该架构由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。Transformer 通过自注意力机制（Self-Attention）来捕捉文本中的长距离依赖关系，无需像循环神经网络（RNN）那样逐词递归处理，从而实现了并行计算，大大提高了训练和推理速度。典型的 LLM 结构包括：

Encoder-Decoder 结构：如用于机器翻译的模型。Encoder 将输入文本编码成一个固定长度的上下文向量，Decoder 则依据该上下文向量生成目标语言的文本输出。
Encoder-only 结构：如 BERT 等。主要用于文本理解任务，如文本分类、命名实体识别、问答系统中的问题理解等。Encoder-only 模型通过双向编码整个输入文本，生成具有上下文信息的隐藏状态，这些隐藏状态可以被后续任务特定的层利用来进行预测。
Decoder-only 结构：如 GPT 系列模型，用于生成文本、补全句子、撰写文章等任务。这类模型直接根据给定的提示（prompt）或前文上下文生成连续的文本输出。

参数规模

LLM 的'大型'体现在其巨大的参数量，通常在数十亿到数千亿之间。例如，GPT-3（Generative Pretrained Transformer 3）拥有约 1750 亿个参数，而更近期的模型如 GPT-4、PaLM、Chinchilla、阿里云的通义千问等，参数量可能更大。大规模参数使得模型能够学习到更丰富的语言规律和模式，提高其泛化能力和表达复杂语言结构的能力。

预训练与微调

LLM 通常遵循'预训练 - 微调'的范式：

预训练：模型首先在大规模无标注文本数据（如互联网抓取的文本、书籍、百科等）上进行自我监督学习，通过自回归语言建模任务（预测下一个词的概率）或掩码语言建模任务（预测被遮蔽词语的概率）来学习语言的通用表示。
微调：预训练后的模型可以针对特定任务进行微调，即在特定领域的有标注数据上进一步训练，调整模型参数以适应特定任务的需求，如问答系统的回答生成、文本分类任务的标签预测等。

应用场景

LLM 在实际中主要应用在以下场景：

生成文本：创作诗歌、故事、新闻文章、代码片段等。
理解与问答：解答各类问题，提供精准的信息检索和知识解析能力。
对话交互：进行自然、流畅的人机对话，模拟人类对话风格，用于客户服务、虚拟助手、教育辅导等领域。
文本翻译：实现高质量的跨语言翻译，无需显式对齐的平行语料。
文本摘要：自动生成文本摘要，提炼关键信息。
代码生成：根据自然语言描述编写或补全代码，助力编程和软件开发。

以下整理了目前主流的开源大模型资源。

国外开源模型

模型链接	模型描述
OpenSora	高效复现类 Sora 视频生成的完全开源方案
GROK	3140 亿参数的混合专家模型，迄今参数量最大的开源 LLM
Gemma	谷歌商场开源模型 2B，7B 免费商用，开源第一易主了
Mixtral	Mistral AI 的突破性大模型，超越 GPT3.5，重新定义人工智能性能和多样性
Mistral7B	'欧洲 OpenAI'的'最强 7B 开源模型'，全面超越 13B 的 Llama2

模型链接	模型描述
BayLing	中科院开源，性能媲美 GPT-3.5，基于 LLama7B/13B，增强的语言对齐的英语/中文大语言模型
GLM	清华发布的中英双语双向密集模型，具有 1300 亿个参数，使用通用语言模型（GLM）算法进行预训练。它旨在支持在单台 A100（40G * 8）或 V100（32G * 8）服务器上支持 130B 参数的推理任务。
XWin-LM	一款基于 Llama2 微调的语言模型，成功在斯坦福 AlpacaEval 上击败了 GPT-4，成为新的榜首模型
XVERSE	元象科技自主研发的支持多语言的大语言模型（Large Language Model），参数规模为 650 亿，底座模型 XVERSE-65B
XVERSE-256K	最大支持 256K 的上下文窗口长度，约 25w 字的输入内容，可以协助进行文献总结、报告分析等任务
ChatGLM3	智谱 AI 训练的第三代大型语言模型，它不仅能理解和生成人类语言，还能执行代码、调用工具，并以 markdown 格式进行响应
ChatGLM2	具备强大的问答和对话功能，拥有最大 32K 上下文，并且在授权后可免费商用！
ChatGLM	清华开源的、支持中英双语的对话语言模型，使用了代码训练，指令微调和 RLHF
Orion-14B-Base	具有 140 亿参数的多语种大模型，该模型在一个包含 2.5 万亿 token 的多样化数据集上进行了训练，涵盖了中文、英语、日语、韩语等多种语言。
Baichuan2	百川第二代也出第二个版本了，提供了 7B/13B Base 和 chat 的版本
Baichuan	百川智能开源 7B 大模型可商用免费
ziya2	基于 Llama2 训练的 ziya2 它终于训练完了
ziya	IDEA 研究院在 7B/13B llama 上继续预训练+SFT+RM+PPO+HFTT+COHFT+RBRS
Qwen1.5-MoE-A2.7B	Qwen 推出 MOE 版本，推理更快
Qwen1.5	通义千问升级 1.5，支持 32K 上文
Qwen1-7B+14B+70B	阿里开源，可商用，通义千问 7B,14B,70B Base 和 chat 模型
InternLM2 7B+20B	商汤的书生模型 2 支持 200K
Yuan-2.0	浪潮发布 Yuan2.0 2B，51B，102B
YI-200K	元一智能开源超长 200K 的 6B，34B 模型
YI	元一智能开源 34B，6B 模型
DeepSeek-MOE	深度求索发布的 DeepSeekMoE 16B Base 和 caht 模型
DeepSeek	深度求索发布的 7B，67B 大模型
LLama2-chinese	没等太久中文预训练微调后的 llama2 它来了~
YuLan-chat2	高瓴人工智能基于 Llama-2 中英双语继续预训练 + 指令微调/对话微调
BlueLM	Vivo 人工智能实验室开源大模型
zephyr-7B	HuggingFace 团队基于 UltraChat 和 UltraFeedback 训练了 Zephyr-7B 模型
Skywork	昆仑万维集团·天工团队开源 13B 大模型可商用
Chinese-LLaMA-Alpaca	哈工大中文指令微调的 LLaMA
Moss	为复旦正名！开源了预训练，指令微调的全部数据和模型。可商用
InternLM	书生浦语在过万亿 token 数据上训练的多语千亿参数基座模型
Aquila2	智源更新 Aquila2 模型系列包括全新 34B
Aquila	智源开源 7B 大模型可商用免费
UltraLM 系列	面壁智能开源 UltraLM13B，奖励模型 UltraRM，和批评模型 UltraCM
PandaLLM	LLAMA2 上中文 wiki 继续预训练+COIG 指令微调
XVERSE	据说中文超越 llama2 的元象开源模型 13B 模型
BiLLa	LLama 词表·扩充预训练 + 预训练和任务 1 比 1 混合 SFT+ 指令样本 SFT 三阶段训练
Phoenix	港中文开源凤凰和奇美拉 LLM，Bloom 基座，40+ 语言支持
Wombat-7B	达摩院开源无需强化学习使用 RRHF 对齐的语言模型，alpaca 基座
TigerBot	虎博开源了 7B 180B 的模型以及预训练和微调语料
Luotuo-Chinese-LLM	冷子昂@商汤科技，陈启源@华中师范大学以及李鲁鲁@商汤科技发起的中文大语言模型开源项目，包含了一系列大语言模型、数据、管线和应用
OpenBuddy	Llama 多语言对话微调模型
Chinese Vincuna	LLama 7B 基座，使用 Belle+Guanaco 数据训练
Linly	Llama 7B 基座，使用 belle+guanaco+pclue+firefly+CSL+newscommentary 等 7 个指令微调数据集训练
Firefly	中文 2.6B 模型，提升模型中文写作，古文能力，待开源全部训练代码，当前只有模型
Baize	使用 100k self-chat 对话数据微调的 Llama
BELLE	使用 ChatGPT 生成数据对开源模型进行中文优化
Chatyuan	chatgpt 出来后最早的国内开源对话模型，T5 架构是下面 PromptCLUE 的衍生模型
PromptCLUE	多任务 Prompt 语言模型
PLUG	阿里达摩院发布超大规模语言模型 PLUG，上能写诗词歌赋、下能对答如流
CPM2.0	智源发布 CPM2.0

LLM 模型入门与主流开源资源盘点

架构特点

参数规模

预训练与微调

应用场景

国外开源模型

更多推荐文章

相关免费在线工具

国内开源模型

如何学习大模型 AI？

LLM 模型入门与主流开源资源盘点

架构特点

参数规模

预训练与微调

应用场景

国外开源模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

国内开源模型

如何学习大模型 AI？