大语言模型发展脉络与主流基座模型概览

大型语言模型（LLM）领域呈现繁荣态势，涵盖 Google、Meta、OpenAI 及开源社区等多方力量。文章梳理了各厂商基座模型与技术路线，包括 Google 的 PaLM 系列、Meta 的 LLaMA 系列、OpenAI 的 GPT 系列以及 Anthropic、BigScience 等机构的模型。内容涉及参数规模、开源状态及指令微调情况，旨在厘清大模型的师承脉络与发展现状。

狂少发布于 2025/2/70 浏览

大语言模型发展脉络与主流基座模型概览

最近，大型语言模型无疑是 AI 社区关注的焦点，各大科技公司和研究机构发布的大模型层出不穷。LLMs 领域当前呈现出繁荣态势，Hugging Face 中已有近 16000 个文本生成模型，社区每周都会有数百个新的模型发布。

大模型可以分为基座模型和在基座模型上进行指令微调、人类反馈对齐等 instruction-tuning 之后的微调模型。实际上，不同的指令微调数据集可以释放或者增强特定的能力，但并没有一个数据集或者组合可以在所有的评估中提供最佳性能，因此，我们需要一个更大强大的基座模型。更简单的理解是，指令微调并不会为模型增加新的能力，基座模型本身奠定了应用的范畴，指令微调只是用极少量的数据快速激发出某个领域范畴的能力强弱。因此，更加合理的大模型故事线是围绕基座模型。

大模型进化树

一、Google 系模型

Google 在大模型赛道一直是最受关注的存在。Google 原本分别有两个研究小组：Google Brain 和 Deepmind，但在今年 4 月合并为了 Google Deepmind。

1. 基座模型

Google Brain

模型名称	时间	是否开源	参数规模
T5	2019-10	是	13B
LaMDA	2021-05	否	137B
PaLM	2022-04	否	540B

LaMDA 是 Google 早在 2020 年就被开发和推出的对话式语言模型，但 Google 考虑安全问题拒绝对公众开放。PaLM 是基于 Google 提出的高效模型训练的下一代 AI 架构 Pathways 构建的超大语言模型，5400 亿的参数量，是目前最大的稠密 Transformer 模型。

DeepMind

模型名称	时间	是否开源	参数规模
Gopher	2021-12	否	280B
Chinchilla	2022-04	否	70B

Chinchilla 是 DeepMind 重新思考了大模型的 scaling laws(缩放定律)，实证研究分析得出数据规模和参数规模一样重要，因此，训练得到的 Chinchilla 用仅 Gopher 1/4 参数量反而性能显著超越 Gopher。

Google DeepMind

模型名称	时间	是否开源	参数规模
PaLM 2	2023-05	否	340B

4 月，Google 决定集中力量办大事，Google Brain 和 DeepMind 合并为 Google DeepMind。5 月，谷歌 I/O 2023 大会，Google 提出了更为强大的 PaLM 2。

组织	模型名称	时间	是否开源	参数规模
Anthropic	Anthropic-LM v4-s3	2021-12	否	52B
北京智源人工智能研究院	天鹰 Aquila	2023-06	是	7B/33B
Baidu	ERNIE 3.0	2021-12	否	260B
清华	GLM	2022-8	是	130B
EleutherAI	GPT-Neo	2021-03	是	2.7B
EleutherAI	GPT-J	2021-06	是	6B
EleutherAI	GPT-NeoX	2022-04	是	20B
BigScience	BLOOM	2022-11	是	176B

单位	模型名称	基座模型	是否开源
北京智源人工智能研究院	AquilaChat-7B	Aquila-7B	是
北京智源人工智能研究院	AquilaChat-33B	Aquila-33B	是
BigScience	BLOOMZ	BLOOM	是
EleutherAI	GPT-NeoX	GPT-Neo	是
Baidu	文心一言	ERNIE 3.0	否
Anthropic	Claude 2	Anthropic-LM v4-s3	否

大语言模型发展脉络与主流基座模型概览

大语言模型发展脉络与主流基座模型概览

一、Google 系模型

1. 基座模型

2. 指令微调模型

更多推荐文章

相关免费在线工具

二、Meta 系模型

1. 基座模型

2. 指令微调模型

三、OpenAI 系模型

1. 基座模型

2. 指令微调模型

四、开源社区、研究院和一些科技公司构建的大模型

指令微调模型

Hugging Face	T0	T5	是
Google	FLAN	T5	否
Google	Flan-T5/Faln-PaLM	T5/PaLM	否
Google	Bard(生成人工智能聊天机器人)	之前是 LaMDA，后面是 PaLM 2	否

单位	模型名称	基座模型	是否开源
Meta	OPT-IML	OPT-175B	是
Stanford	Alpaca	LLaMA	是
Stanford	Vicuna	LLaMA	是

大语言模型发展脉络与主流基座模型概览

大语言模型发展脉络与主流基座模型概览

一、Google 系模型

1. 基座模型

2. 指令微调模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、Meta 系模型

1. 基座模型

2. 指令微调模型

三、OpenAI 系模型

1. 基座模型

2. 指令微调模型

四、开源社区、研究院和一些科技公司构建的大模型

指令微调模型