【AI大模型】探索GPT模型的奥秘：引领自然语言处理的新纪元

优质文章学习记录

08 Apr 2026 — 6 min read

3.2 有监督的下游任务fine-tunning

🍔 小结

学习目标了解什么是GPT.掌握GPT的架构.掌握GPT的预训练任务.

🍔 GPT介绍

GPT是OpenAI公司提出的一种语言预训练模型.
OpenAI在论文<< Improving Language Understanding by Generative Pre-Training >>中提出GPT模型.
OpenAI后续又在论文<< Language Models are Unsupervised Multitask Learners >>中提出GPT2模型.
GPT和GPT2模型结构差别不大, 但是GPT2采用了更大的数据集进行训练.
OpenAI GPT模型是在Google BERT模型之前提出的, 与BERT最大的区别在于GPT采用了传统的语言模型方法进行预训练, 即使用单词的上文来预测单词, 而BERT是采用了双向上下文的信息共同来预测单词.
正是因为训练方法上的区别, 使得GPT更擅长处理自然语言生成任务(NLG), 而BERT更擅长处理自然语言理解任务(NLU).

🍔 GPT的架构

看三个语言模型的对比架构图, 中间的就是GPT:

从上图可以很清楚的看到GPT采用的是单向Transformer模型, 例如给定一个句子[u1, u2, ..., un], GPT在预测单词ui的时候只会利用[u1, u2, ..., u(i-1)]的信息, 而BERT会同时利用上下文的信息[u1, u2, ..., u(i-1), u(i+1), ..., un].作为两大模型的直接对比, BERT采用了Transformer的Encoder模块, 而GPT采用了Transformer的Decoder模块. 并且GPT的Decoder Block和经典Transformer Decoder Block还有所不同, 如下图所示:

如上图所示, 经典的Transformer Decoder Block包含3个子层, 分别是Masked Multi-Head Attention层, encoder-decoder attention层, 以及Feed Forward层. 但是在GPT中取消了第二个encoder-decoder attention子层, 只保留Masked Multi-Head Attention层, 和Feed Forward层.作为单向Transformer Decoder模型, GPT利用句子序列信息预测下一个单词的时候, 要使用Masked Multi-Head Attention对单词的下文进行遮掩, 来防止未来信息的提前泄露. 例如给定一个句子包含4个单词[A, B, C, D], GPT需要用[A]预测B, 用[A, B]预测C, 用[A, B, C]预测D. 很显然的就是当要预测B时, 需要将[B, C, D]遮掩起来.

具体的遮掩操作是在slef-attention进行softmax之前进行的, 一般的实现是将MASK的位置用一个无穷小的数值-inf来替换, 替换后执行softmax计算得到新的结果矩阵. 这样-inf的位置就变成了0. 如上图所示, 最后的矩阵可以很方便的做到当利用A预测B的时候, 只能看到A的信息; 当利用[A, B]预测C的时候, 只能看到A, B的信息.注意: 对比于经典的Transformer架构, 解码器模块采用了6个Decoder Block; GPT的架构中采用了12个Decoder Block.

🍔 GPT训练过程

GPT的训练也是典型的两阶段过程:

第一阶段: 无监督的预训练语言模型.
第二阶段: 有监督的下游任务fine-tunning.

3.1 无监督的预训练语言模型

给定句子U = [u1, u2, ..., un], GPT训练语言模型时的目标是最大化下面的似然函数:

有上述公式可知, GPT是一个单向语言模型, 假设输入张量用h0表示, 则计算公式如下:

其中Wp是单词的位置编码, We是单词本身的word embedding. Wp的形状是[max_seq_len, embedding_dim], We的形状是[vocab_size, embedding_dim].

得到输入张量h0后, 要将h0传入GPT的Decoder Block中, 依次得到ht:

最后通过得到的ht来预测下一个单词:

3.2 有监督的下游任务fine-tunning

GPT经过预训练后, 会针对具体的下游任务对模型进行微调. 微调采用的是有监督学习, 训练样本包括单词序列[x1, x2, ..., xn]和label y. GPT微调的目标任务是根据单词序列[x1, x2, ..., xn]预测标签y.

其中Wy��表示预测输出的矩阵参数, 微调任务的目标是最大化下面的函数:

综合两个阶段的目标任务函数, 可知GPT的最终优化函数为:

🍔 小结

学习了什么是GPT.
- GPT是OpenAI公司提出的一种预训练语言模型.
- 本质上来说, GPT是一个单向语言模型.
学习了GPT的架构.
- GPT采用了Transformer架构中的解码器模块.
- GPT在使用解码器模块时做了一定的改造, 将传统的3层Decoder Block变成了2层Block, 删除了encoder-decoder attention子层, 只保留Masked Multi-Head Attention子层和Feed Forward子层.
- GPT的解码器总共是由12个改造后的Decoder Block组成的.
学习了GPT的预训练任务.
- 第一阶段: 无监督的预训练语言模型. 只利用单词前面的信息来预测当前单词.
- 第二阶段: 有监督的下游任务fine-tunning.

【大模型应用篇】用 OpenClaw + 飞书打造 7x24 小时服务器运维机器人

前言本文基于OpenClaw，也是最近超火的可在本地运行的AI Agent网关，记录从零搭建通过飞书对话管理服务器运维机器人的全过程。该机器人支持随时随地通过飞书查看服务器状态、检索日志、管理进程，其核心机制在于：由OpenClaw将聊天平台（飞书等）的消息路由至大模型，模型调用本地工具（如Shell、文件系统、浏览器）执行相应任务，最终将结果自动返回至飞书会话中，实现自动化运维交互。架构概览飞书 App (WebSocket 长连接) ↕ OpenClaw Gateway (服务器上 systemd 常驻) ↕ AI 模型 (DeepSeek v3.2/GLM 4.7) ↕ 服务器 Shell (受白名单限制的命令执行) 核心组件： * OpenClaw Gateway：Agent 网关，管理会话、工具调用、渠道连接 * 飞书插件：通过

从零开始“养龙虾”：OpenClaw 本地极简部署与 QQ 机器人接入全保姆级教程

文章目录 * 引言 * 什么是 OpenClaw？ * 为什么选择 OpenClaw？ * 一、基础环境准备 * 1. 安装 Node.js (v22及以上) * 2.安装 Git * 3. 解决 npm 被拦截（没报错跳过） * 二、一键部署与唤醒“龙虾” * 1.全自动拉取与组装 * 2.醒龙虾与配置“大脑” * 三、接入官方 QQ 机器人（可选） * 1. 领取官方机器人的“身份证” * 2. 本地安装专属通信插件 * 3. 结果展示 * 总结引言什么是 OpenClaw？最近开源界有一只“红皮小龙虾”非常火，它就是 OpenClaw。

自适应图像变焦与边界框变换用于无人机目标检测

作者： Tao Wang, Chenyu Lin, Chenwei Tang, Jizhe Zhou, Deng Xiong, Jianan Li, Jian Zhao, Jiancheng Lv 亮点 * 自适应空间变换：对图像进行自适应空间变换可以有效地放大物体细节。 * 框变换：框变换使得检测器能够在图像变换的空间中进行训练和推理。 * 实验效果：在多种无人机图像数据集上的实验表明，该方法以较小的代价获得了有效的增益。 * 灵活模块化设计：灵活的模块化设计使其能够与其他方法和任务场景集成。 https://arxiv.org/pdf/2602.07512 摘要由于物体尺寸较小，从无人机（UAV）拍摄的图像中检测物体具有挑战性。在这项工作中，我们探索了一种简单高效的自适应变焦框架，用于无人机图像的目标检测。主要动机是，前景物体通常比普通场景图像中的物体更小且更稀疏，这阻碍了有效目标检测器的优化。因此，我们的目标是自适应地放大物体，以便更好地捕捉用于检测任务的物体特征。为了实现这一目标，需要两个核心设计：i)

快过年了，写个游戏玩玩，放松下，解析俄罗斯方块游戏（可直接复制代码使用，玩游戏）。罗斯方块游戏技术解析：从前端实现到工程化思考

前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎点赞 + 收藏 + 关注哦 💕 快过年了，写个游戏玩玩，放松下，解析俄罗斯方块游戏（可直接复制代码，玩游戏）。罗斯方块游戏技术解析：从前端实现到工程化思考 📚 本文简介本文解析了一个基于HTML5+CSS3+JavaScript的俄罗斯方块网页游戏实现。项目采用模块化设计，包含index.html、style.css和script.js三个核心文件，遵循前端开发最佳实践。HTML结构采用语义化布局，使用Canvas双画布分别渲染主游戏区和预览区。CSS运用Flexbox布局、毛玻璃效果、过渡动画等现代特性，实现响应式设计。JavaScript处理游戏逻辑，包括方块旋转、碰撞检测等核心算法。项目兼顾性能与用户体验，是前端游戏开发的经典案例。全文从架构设计到实现细节进行了深度技术解析。目录 * 快过年了，写个游戏玩玩，放松下，解析俄罗斯方块游戏（可直接复制代码，玩游戏）。罗斯方块游戏技术解析：

🍔 GPT介绍

🍔 GPT的架构

🍔 GPT训练过程

3.1 无监督的预训练语言模型

3.2 有监督的下游任务fine-tunning

🍔 小结

Read more

【大模型应用篇】用 OpenClaw + 飞书打造 7x24 小时服务器运维机器人

从零开始“养龙虾”：OpenClaw 本地极简部署与 QQ 机器人接入全保姆级教程

自适应图像变焦与边界框变换用于无人机目标检测

快过年了，写个游戏玩玩，放松下，解析俄罗斯方块游戏（可直接复制代码使用，玩游戏）。罗斯方块游戏技术解析：从前端实现到工程化思考