大语言模型发展脉络与主流基座模型概览
最近,大型语言模型无疑是 AI 社区关注的焦点,各大科技公司和研究机构发布的大模型层出不穷。LLMs 领域当前呈现出繁荣态势,Hugging Face 中已有近 16000 个文本生成模型,社区每周都会有数百个新的模型发布。
大模型可以分为基座模型和在基座模型上进行指令微调、人类反馈对齐等 instruction-tuning 之后的微调模型。实际上,不同的指令微调数据集可以释放或者增强特定的能力,但并没有一个数据集或者组合可以在所有的评估中提供最佳性能,因此,我们需要一个更大强大的基座模型。更简单的理解是,指令微调并不会为模型增加新的能力,基座模型本身奠定了应用的范畴,指令微调只是用极少量的数据快速激发出某个领域范畴的能力强弱。因此,更加合理的大模型故事线是围绕基座模型。

一、Google 系模型
Google 在大模型赛道一直是最受关注的存在。Google 原本分别有两个研究小组:Google Brain 和 Deepmind,但在今年 4 月合并为了 Google Deepmind。
1. 基座模型
Google Brain
| 模型名称 | 时间 | 是否开源 | 参数规模 |
|---|---|---|---|
| T5 | 2019-10 | 是 | 13B |
| LaMDA | 2021-05 | 否 | 137B |
| PaLM | 2022-04 | 否 | 540B |
LaMDA 是 Google 早在 2020 年就被开发和推出的对话式语言模型,但 Google 考虑安全问题拒绝对公众开放。PaLM 是基于 Google 提出的高效模型训练的下一代 AI 架构 Pathways 构建的超大语言模型,5400 亿的参数量,是目前最大的稠密 Transformer 模型。
DeepMind
| 模型名称 | 时间 | 是否开源 | 参数规模 |
|---|---|---|---|
| Gopher | 2021-12 | 否 | 280B |
| Chinchilla | 2022-04 | 否 | 70B |
Chinchilla 是 DeepMind 重新思考了大模型的 scaling laws(缩放定律),实证研究分析得出数据规模和参数规模一样重要,因此,训练得到的 Chinchilla 用仅 Gopher 1/4 参数量反而性能显著超越 Gopher。
Google DeepMind
| 模型名称 | 时间 | 是否开源 | 参数规模 |
|---|---|---|---|
| PaLM 2 | 2023-05 | 否 | 340B |
4 月,Google 决定集中力量办大事,Google Brain 和 DeepMind 合并为 Google DeepMind。5 月,谷歌 I/O 2023 大会,Google 提出了更为强大的 PaLM 2。


