系统性学习大模型
自 ChatGPT 发布以来,大模型的概念逐渐被大众所熟知,从大语言模型到端到端模型再到如今的多模态模型。不同模型之间的概念和区别,很多刚入门 AI 的小白可能很容易混淆。这篇文章我将整合大模型、大语言模型、端到端模型、多模态模型等整个系列的知识内容,让大家能够一次性学习掌握大模型的相关知识。
01. 什么是大模型(Large Models)
大模型,在人工智能领域是指具有大量参数的机器学习/深度学习模型。这种解释大家一搜就看到了,但依旧很难理解透彻,所以还需要更加简洁的语言结合案例进行解释说明。
首先,我们将大模型 3 个字拆开来看,先说明一下什么是模型。模型,简单来讲就是算法或者数学结构,这些算法或数学结构是经过多年研究总结而成的知识。例如数学中的 y=ax+b,是一个简单的线性模型,y 是预测输出,X 是输入数据,a 和 b 可以理解为斜率和截距参数,这个模型可以通过找到最佳的 a、b 值,对预测值和实际值之间的差距进行最小化。
那大模型的话,则是更加复杂的模型,包含更多层(类比一次函数、二次函数、三次函数)和参数。大模型包含百万甚至数十亿个参数,这些参数在模型中扮演着类似于 a 和 b 的角色。在深度学习中,模型的层数和每层的神经元数量可以看做模型的'大小',每一层都包含多个参数,这些参数在训练的过程中可以调整用以学习数据中的复杂模式。大模型通过学习大量的数据,来找到最佳的参数设置,从而在新的、未见过的数据上做出正确的预测。
大模型工作原理
为了进一步理解大模型,我们还需要理解大模型的训练原理或过程。这里需要大家先理解 3 个词:数据、算法、算力。
如果觉得这 3 个词不好理解,我们可以通过初中政治里讲的生产力、生产关系、生产资料进行类比。

在 AI 时代,算力可以看做是农业时代种植农作物的能力,劳力多则产出多;也可以看做是工业时代机器生产的能力,机器远超人的生产力,有着更大的生产效率。那 AI 时代的算力则是各种芯片,像 CPU、GPU、FPGA 等。
而算法则可比作生产关系,在农业时代,劳动力如何分工协作,才可以高效产出;在工业时代,机器和人如何分工,才可以将效率发挥到最大化;到了 AI 时代,数据结构如何设计,才能运算的更快,预测的更准确。在不断的验证和调整下,才能最终定论出一套合适的结构。
数据集,引用古人的一句话:'巧妇难为无米之炊'。在农业时代,你有再多的劳力,如果你没有土地,没有种子,就产出不了粮食。在工业时代,你有了先进的生产机器,但没有工厂,没有原材料,也就产出不了工业用品。因此在 AI 领域,数据集就非常关键,算法需要学习大量的数据,才能预测出最准确的内容进行输出。
关于数据集,我在这里再多补充一点。我们平时接触的数据,可以理解为都是信息,这些信息需要标注、整理为数据集,才会变成有效的信息知识点,才能被模型所识别和学习。所以把大量的数据进行标注、整理,是需要投入大量人力进去的,因为对初始数据的标注,需要人为手动的去圈定出来。比如一张狗狗的图片,你要把狗圈出来,给它打上狗的标签,那模型在学习的过程中,就可以通过这个标签去学习狗的特征,如果再输入类似狗狗特征的新图片时,模型就可以识别出图片中是狗狗还是猫猫了。所以人工智能,先有人工,才有智能。当然,随着后续技术的发展,自动标注工具以及验证模型会发展的更加成熟,也会释放掉大量的人工作业。
了解完训练大模型的 3 个基础要素,接下来我们再来看一下,大模型是如何被训练的。模型的训练大概可以简要的分为以下 5 个步骤:

第 1 步:准备好数据集(已完成标注)、算法、算力以及训练的平台环境。
第 2 步:开始进行模型训练。
第 3 步:将训练好的模型进行推理预测,即验证模型预测的输出内容是否准确。
第 4 步:根据推理预测的结果对模型进行参数微调,将优化后的模型再进行推理预测,循环往复,直到这个模型的预测准确率达到最佳。
第 5 步:模型调到最优后,就可以生成 web 应用,用户在客户端或者网页端就可以进行使用了,比如我们现在经常用到的 ChatGPT、kimi、文心一言等。
02. 什么是大语言模型(Large Language Models)
理解了什么是大模型,大语言模型就会更加容易理解了,在大模型的基础下,它是专门用于处理文本数据的一种基础模型。
大语言模型,简称 LLM,也可以称为生成式 AI,即能够自动生成文本内容的模型。LLM 通过大量学习数据或者语料库,从中提取潜在的语言规则、模式和结构,并利用这些规则和结构生成新的,与原始数据类似但不限于原始数据的文本内容,最终可以达到像人类一样,理解和生成文本以及其他形式的内容。





