【AI大模型】探索GPT模型的奥秘：引领自然语言处理的新纪元

优质文章学习记录

07 Apr 2026 — 6 min read

3.2 有监督的下游任务fine-tunning

🍔 小结

学习目标了解什么是GPT.掌握GPT的架构.掌握GPT的预训练任务.

🍔 GPT介绍

GPT是OpenAI公司提出的一种语言预训练模型.
OpenAI在论文<< Improving Language Understanding by Generative Pre-Training >>中提出GPT模型.
OpenAI后续又在论文<< Language Models are Unsupervised Multitask Learners >>中提出GPT2模型.
GPT和GPT2模型结构差别不大, 但是GPT2采用了更大的数据集进行训练.
OpenAI GPT模型是在Google BERT模型之前提出的, 与BERT最大的区别在于GPT采用了传统的语言模型方法进行预训练, 即使用单词的上文来预测单词, 而BERT是采用了双向上下文的信息共同来预测单词.
正是因为训练方法上的区别, 使得GPT更擅长处理自然语言生成任务(NLG), 而BERT更擅长处理自然语言理解任务(NLU).

🍔 GPT的架构

看三个语言模型的对比架构图, 中间的就是GPT:

从上图可以很清楚的看到GPT采用的是单向Transformer模型, 例如给定一个句子[u1, u2, ..., un], GPT在预测单词ui的时候只会利用[u1, u2, ..., u(i-1)]的信息, 而BERT会同时利用上下文的信息[u1, u2, ..., u(i-1), u(i+1), ..., un].作为两大模型的直接对比, BERT采用了Transformer的Encoder模块, 而GPT采用了Transformer的Decoder模块. 并且GPT的Decoder Block和经典Transformer Decoder Block还有所不同, 如下图所示:

如上图所示, 经典的Transformer Decoder Block包含3个子层, 分别是Masked Multi-Head Attention层, encoder-decoder attention层, 以及Feed Forward层. 但是在GPT中取消了第二个encoder-decoder attention子层, 只保留Masked Multi-Head Attention层, 和Feed Forward层.作为单向Transformer Decoder模型, GPT利用句子序列信息预测下一个单词的时候, 要使用Masked Multi-Head Attention对单词的下文进行遮掩, 来防止未来信息的提前泄露. 例如给定一个句子包含4个单词[A, B, C, D], GPT需要用[A]预测B, 用[A, B]预测C, 用[A, B, C]预测D. 很显然的就是当要预测B时, 需要将[B, C, D]遮掩起来.

具体的遮掩操作是在slef-attention进行softmax之前进行的, 一般的实现是将MASK的位置用一个无穷小的数值-inf来替换, 替换后执行softmax计算得到新的结果矩阵. 这样-inf的位置就变成了0. 如上图所示, 最后的矩阵可以很方便的做到当利用A预测B的时候, 只能看到A的信息; 当利用[A, B]预测C的时候, 只能看到A, B的信息.注意: 对比于经典的Transformer架构, 解码器模块采用了6个Decoder Block; GPT的架构中采用了12个Decoder Block.

🍔 GPT训练过程

GPT的训练也是典型的两阶段过程:

第一阶段: 无监督的预训练语言模型.
第二阶段: 有监督的下游任务fine-tunning.

3.1 无监督的预训练语言模型

给定句子U = [u1, u2, ..., un], GPT训练语言模型时的目标是最大化下面的似然函数:

有上述公式可知, GPT是一个单向语言模型, 假设输入张量用h0表示, 则计算公式如下:

其中Wp是单词的位置编码, We是单词本身的word embedding. Wp的形状是[max_seq_len, embedding_dim], We的形状是[vocab_size, embedding_dim].

得到输入张量h0后, 要将h0传入GPT的Decoder Block中, 依次得到ht:

最后通过得到的ht来预测下一个单词:

3.2 有监督的下游任务fine-tunning

GPT经过预训练后, 会针对具体的下游任务对模型进行微调. 微调采用的是有监督学习, 训练样本包括单词序列[x1, x2, ..., xn]和label y. GPT微调的目标任务是根据单词序列[x1, x2, ..., xn]预测标签y.

其中Wy��表示预测输出的矩阵参数, 微调任务的目标是最大化下面的函数:

综合两个阶段的目标任务函数, 可知GPT的最终优化函数为:

🍔 小结

学习了什么是GPT.
- GPT是OpenAI公司提出的一种预训练语言模型.
- 本质上来说, GPT是一个单向语言模型.
学习了GPT的架构.
- GPT采用了Transformer架构中的解码器模块.
- GPT在使用解码器模块时做了一定的改造, 将传统的3层Decoder Block变成了2层Block, 删除了encoder-decoder attention子层, 只保留Masked Multi-Head Attention子层和Feed Forward子层.
- GPT的解码器总共是由12个改造后的Decoder Block组成的.
学习了GPT的预训练任务.
- 第一阶段: 无监督的预训练语言模型. 只利用单词前面的信息来预测当前单词.
- 第二阶段: 有监督的下游任务fine-tunning.

本地文件深度交互新玩法：Obsidian Copilot的深度开发

前言当 “本地知识库管理” 撞上 “AI 智能分析”，会擦出怎样的火花？试想一下：你的 Obsidian 里存着多年积累的笔记、文档，却只能手动翻阅检索；而现在，一个插件 + 蓝耘 API，就能让这些 “静态文字” 瞬间 “活” 起来 —— 自动总结核心内容、智能回答专业疑问，甚至挖掘隐藏关联！今天，就带大家拆解 Obsidian 联动蓝耘 API 的全新玩法，看看如何让本地文件从 “信息仓库” 变身 “智能助手” 。蓝耘API KEY的创建先进行API的创建先点击蓝耘进行一个正常的注册流程进入到主页之后，我们点击上方的MaaS平台进入到平台后我们可以看到很多的大模型不仅仅是文本生成、音频理解、视频理解还是视频生成，都有对应的大模型每个模型都有很详细的介绍以及价格示例，用过api调用的都可以看到这个价格还是比较贴近平民的并且可以进行在线体验的，这里是先进行思考的，

Qwen3-VL + LLama-Factory进行针对Grounding任务LoRA微调

0.官方GitHub网站： GitHub - QwenLM/Qwen3-VL：Qwen3-VL 是由阿里云 Qwen 团队开发的多模态大语言模型系列。https://github.com/QwenLM/Qwen3-VL 空间感知能力大幅提升：2D grounding 从绝对坐标变为相对坐标，支持判断物体方位、视角变化、遮挡关系，能实现 3D grounding，为复杂场景下的空间推理和具身场景打下基础。 OCR 支持更多语言及复杂场景：支持的中英外的语言从 10 种扩展到 32 种，覆盖更多国家和地区；在复杂光线、模糊、倾斜等实拍挑战性场景下表现更稳定；对生僻字、古籍字、专业术语的识别准确率也显著提升；超长文档理解和精细结构还原能力进一步提升。一是采用 MRoPE-Interleave，原始MRoPE将特征维度按照时间（t）、高度（h)和宽度（w)的顺序分块划分，

2025.10.17 更新 AI绘画秋葉aaaki整合包 Stable Diffusion整合包v4.10 +ComfyUI整合包下载地址

2025.10.17 更新 AI绘画秋葉aaaki整合包 Stable Diffusion整合包v4.10 +ComfyUI整合包下载地址 * @[TOC](2025.10.17 更新 AI绘画秋葉aaaki整合包 Stable Diffusion整合包v4.10 +ComfyUI整合包下载地址) * 🌈 Stable Diffusion整合包（秋葉aaaki整合版） * 📦 【下载链接】 * 💡 英特尔 CPU 用户特别提醒 * 🔧 AMD 显卡专用方案 * ⚙️ 常见问题与解决方案 * 🧠 ComfyUI 整合包（秋葉aaaki定制优化版） * 📥 【下载链接】 * 🚀 更新日志（2025.2.4 v1.6） * 🧩 报错解决关键词建议（自动覆盖百度、必应等搜索） AI绘画整合包下载、Stable Diffusion整合包、ComfyUI整合包、秋葉aaaki整合包、AI绘图工具、AI绘画模型、

2.2 GPT、LLaMA 与 MOE：自回归模型与混合专家架构演进

2.2 GPT、LLaMA 与 MOE：自回归模型与混合专家架构演进基于《大规模语言模型：从理论到实践（第2版）》第2章大语言模型基础爆款小标题：从 GPT 到 LLaMA 到 MOE，主流架构差异与选型一张表搞定为什么这一节重要大模型产品与开源生态里，最常见的就是「GPT 类」「LLaMA 类」和「MOE 类」模型。若不搞清楚它们在训练目标（自回归 vs 掩码）、架构细节（归一化、激活、位置编码）和使用场景上的差异，很容易出现「用 BERT 做长文本生成」或「用纯 GPT 做句向量」这类错配。

🍔 GPT介绍

🍔 GPT的架构

🍔 GPT训练过程

3.1 无监督的预训练语言模型

3.2 有监督的下游任务fine-tunning

🍔 小结

Read more

本地文件深度交互新玩法：Obsidian Copilot的深度开发

Qwen3-VL + LLama-Factory进行针对Grounding任务LoRA微调

2025.10.17 更新 AI绘画秋葉aaaki整合包 Stable Diffusion整合包v4.10 +ComfyUI整合包下载地址

2.2 GPT、LLaMA 与 MOE：自回归模型与混合专家架构演进