人工智能：预训练语言模型与BERT实战应用

Ne0inhk

24 Mar 2026 — 12 min read

人工智能：预训练语言模型与BERT实战应用

1.1 本章学习目标与重点

💡 学习目标：掌握预训练语言模型的核心思想、BERT模型的架构原理，以及基于BERT的文本分类任务实战流程。
💡 学习重点：理解BERT的双向注意力机制与掩码语言模型预训练任务，学会使用Hugging Face Transformers库调用BERT模型并完成微调。

1.2 预训练语言模型的发展历程与核心思想

1.2.1 为什么需要预训练语言模型

💡 传统的自然语言处理模型（如LSTM+词嵌入）存在两个核心痛点：一是需要大量标注数据才能训练出高性能模型，二是模型对语言上下文的理解能力有限。
预训练语言模型的出现解决了这些问题。它的核心思路是先在大规模无标注文本语料上进行预训练，学习通用的语言知识和语义表示，再针对特定任务进行微调。这种“预训练+微调”的范式，极大降低了对标注数据的依赖，同时显著提升了模型在各类NLP任务上的性能。

预训练语言模型的发展可以分为三个阶段：

单向语言模型阶段：以ELMo为代表，通过双向LSTM分别学习正向和反向的语言表示，再拼接得到词向量。但ELMo本质还是基于RNN的特征提取器，无法捕捉深层的上下文依赖。
自回归语言模型阶段：以GPT为代表，采用单向Transformer解码器架构，通过自回归的方式预测下一个词。但单向模型只能利用前文信息，无法利用后文信息，在理解类任务上表现受限。
双向语言模型阶段：以BERT为代表，采用双向Transformer编码器架构，通过掩码语言模型任务，让模型同时学习前文和后文的信息，真正实现了双向上下文理解。

1.2.2 预训练+微调的核心流程

预训练语言模型的应用流程分为两个关键步骤：

预训练阶段：在大规模无标注语料（如维基百科、书籍语料）上，通过设计特定的预训练任务（如掩码语言模型、下一句预测），让模型学习语言的语法、语义和常识知识，得到通用的语言表示模型。
微调阶段：针对具体的NLP任务（如文本分类、命名实体识别、机器翻译），在预训练模型的基础上，添加少量任务相关的输出层，使用少量标注数据进行训练，得到任务专用模型。

⚠️ 注意：预训练阶段通常需要海量的计算资源和数据，一般由大厂或研究机构完成。普通开发者只需下载预训练好的模型权重，直接进行微调即可。

1.3 BERT模型架构与预训练任务详解

1.3.1 BERT的核心架构

💡 BERT的全称是Bidirectional Encoder Representations from Transformers，即基于Transformer编码器的双向表示模型。它的核心架构是多层双向Transformer编码器，没有解码器部分。
BERT的模型结构有两个版本，满足不同的算力需求：

BERT-Base：12层Transformer编码器，12个注意力头，隐藏层维度768，参数量约110M。
BERT-Large：24层Transformer编码器，16个注意力头，隐藏层维度1024，参数量约340M。

BERT的输入表示是三种嵌入的求和：

词嵌入（Token Embedding）：表示每个词的基础语义信息。
分段嵌入（Segment Embedding）：用于区分两个句子（如判断句子是否为上下文关系），取值为0或1。
位置嵌入（Position Embedding）：和Transformer一样，用于注入词的位置信息，因为Transformer本身是无序的。

import tensorflow as tf from transformers import BertConfig, BertModel # 加载BERT-Base配置 config = BertConfig.from_pretrained('bert-base-uncased')# 初始化BERT模型 bert_model = BertModel.from_pretrained('bert-base-uncased')# 模拟输入：batch_size=2，sequence_length=10 input_ids = tf.random.randint(0, config.vocab_size,(2,10)) attention_mask = tf.ones((2,10))# 1表示有效token，0表示填充token token_type_ids = tf.zeros((2,10))# 0表示第一个句子，1表示第二个句子# 获取BERT输出 outputs = bert_model(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids) last_hidden_state = outputs.last_hidden_state # 最后一层隐藏状态，shape=(2,10,768) pooler_output = outputs.pooler_output # 特殊token [CLS]的输出，shape=(2,768)print("最后一层隐藏状态形状：", last_hidden_state.shape)print("CLS token输出形状：", pooler_output.shape)

1.3.2 BERT的预训练任务

BERT的预训练包含两个核心任务，通过这两个任务让模型学习双向上下文信息：

掩码语言模型（Masked Language Model, MLM）
- 随机选择15%的token进行掩码处理：80%的概率替换为[MASK]，10%的概率替换为随机token，10%的概率保持原token不变。
- 模型的任务是预测被掩码的token的原始值。这个任务强制模型学习上下文的双向依赖关系，因为要预测掩码token，必须同时考虑前后文的信息。
下一句预测（Next Sentence Prediction, NSP）
- 输入一对句子（A和B），50%的概率B是A的真实下一句，50%的概率B是随机选择的句子。
- 模型的任务是判断B是否是A的下一句。这个任务让模型学习句子之间的逻辑关系，适用于问答、文本摘要等需要理解句子关系的任务。

⚠️ 注意：后续的研究发现，NSP任务对部分下游任务的提升有限，甚至可能带来负面影响。因此，一些改进版的BERT模型（如RoBERTa）取消了NSP任务。

1.4 Hugging Face Transformers库快速上手

💡 Hugging Face Transformers是目前最流行的预训练语言模型工具库，它提供了包括BERT、GPT、RoBERTa、T5等在内的数百种预训练模型的实现，支持TensorFlow和PyTorch两种框架，极大简化了预训练模型的使用流程。

1.4.1 安装与环境配置

首先安装Transformers库和相关依赖：

pip install transformers datasets tensorflow

1.4.2 核心组件介绍

Transformers库的核心组件包括：

Config：存储模型的配置信息，如层数、隐藏层维度、注意力头数等。
Tokenizer：负责文本的预处理，包括分词、转换为token id、添加特殊token、填充和截断等。
Model：预训练模型的核心代码，不同的模型对应不同的Model类，如BertModel、BertForSequenceClassification等。

1.5 实战：基于BERT的中文文本分类任务

1.5.1 任务介绍与数据集准备

💡 本次实战任务是中文新闻文本分类。我们使用THUCNews数据集的子集，包含10个新闻类别：体育、娱乐、家居、房产、教育、时尚、时政、游戏、科技、财经。我们的目标是基于BERT-base-chinese模型，搭建文本分类模型，实现对新闻类别的自动判断。

① 加载THUCNews子集数据集，划分训练集、验证集和测试集
② 使用BertTokenizer对文本进行分词处理，转换为模型可接受的输入格式
③ 设置序列最大长度为128，对过长的文本进行截断，过短的文本进行填充

from datasets import load_dataset from transformers import BertTokenizerFast # 加载数据集（这里使用本地的THUCNews子集，也可以使用Hugging Face Hub上的公开数据集） dataset = load_dataset('csv', data_files={'train':'thucnews_train.csv','val':'thucnews_val.csv','test':'thucnews_test.csv'})# 加载中文BERT分词器 tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')# 定义文本预处理函数defpreprocess_function(examples):# 对文本进行分词、转换为token id、填充和截断return tokenizer( examples['text'], max_length=128, padding='max_length', truncation=True)# 对数据集进行预处理 tokenized_dataset = dataset.map(preprocess_function, batched=True)# 重命名标签列，适配模型输入 tokenized_dataset = tokenized_dataset.rename_column('label','labels')# 设置数据集格式为TensorFlow格式 tokenized_dataset.set_format(type='tensorflow', columns=['input_ids','attention_mask','labels'])# 生成训练集和验证集的tf.data.Dataset batch_size =32 train_dataset = tokenized_dataset['train'].to_tf_dataset( columns=['input_ids','attention_mask'], label_cols=['labels'], batch_size=batch_size, shuffle=True) val_dataset = tokenized_dataset['val'].to_tf_dataset( columns=['input_ids','attention_mask'], label_cols=['labels'], batch_size=batch_size, shuffle=False)

1.5.2 搭建BERT文本分类模型

💡 我们使用BertForSequenceClassification类，它是BERT模型针对序列分类任务的专用版本。它在BERT的输出层后，添加了一个全连接层，用于将[CLS]token的输出映射到分类标签空间。

from transformers import TFBertForSequenceClassification # 加载BERT中文预训练模型，指定分类类别数为10 model = TFBertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=10, problem_type='single_label_classification')# 编译模型 model.compile( optimizer=tf.keras.optimizers.Adam(learning_rate=2e-5), loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True), metrics=[tf.keras.metrics.SparseCategoricalAccuracy('accuracy')])# 查看模型结构 model.summary()

⚠️ 注意：BERT模型的学习率通常设置为2e-5或5e-5，远小于普通深度学习模型的学习率。这是因为预训练模型已经学习了丰富的语言知识，过高的学习率会破坏预训练的权重。

1.5.3 模型微调与评估

① 设置训练参数，训练轮数设置为3轮（BERT模型微调通常不需要太多轮数，否则容易过拟合）
② 使用验证集监控模型性能，保存最佳模型
③ 在测试集上评估模型的最终性能

from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping # 定义回调函数 callbacks =[# 早停：当验证集损失不再下降时停止训练 EarlyStopping(monitor='val_loss', patience=1, restore_best_weights=True),# 保存最佳模型 ModelCheckpoint('best_bert_thucnews.h5', monitor='val_accuracy', save_best_only=True)]# 开始微调模型 history = model.fit( train_dataset, validation_data=val_dataset, epochs=3, callbacks=callbacks )# 加载测试集 test_dataset = tokenized_dataset['test'].to_tf_dataset( columns=['input_ids','attention_mask'], label_cols=['labels'], batch_size=batch_size, shuffle=False)# 在测试集上评估模型 test_loss, test_acc = model.evaluate(test_dataset)print(f"测试集损失：{test_loss:.4f}")print(f"测试集准确率：{test_acc:.4f}")

1.5.4 模型预测与推理

训练完成后，我们可以使用模型对新的中文文本进行分类预测：

# 定义预测函数defpredict_text_category(text):# 预处理文本 inputs = tokenizer( text, max_length=128, padding='max_length', truncation=True, return_tensors='tf')# 获取预测结果 outputs = model(inputs) logits = outputs.logits # 转换为类别概率 probabilities = tf.nn.softmax(logits, axis=-1)# 获取预测类别 predicted_label = tf.argmax(probabilities, axis=-1).numpy()[0]# 类别映射字典 label_map ={0:'体育',1:'娱乐',2:'家居',3:'房产',4:'教育',5:'时尚',6:'时政',7:'游戏',8:'科技',9:'财经'}return label_map[predicted_label]# 测试预测 test_text ="北京时间10月1日，2024年巴黎奥运会男篮决赛在法兰西体育场举行，美国队以102-87击败法国队，夺得金牌。"print(f"文本内容：{test_text}")print(f"预测类别：{predict_text_category(test_text)}")

1.6 BERT模型的优化与改进方向

1.6.1 模型优化技巧

💡 技巧1：使用学习率调度器。在微调过程中，使用线性学习率衰减策略，让学习率随着训练轮数的增加而逐渐降低，提升模型的泛化能力。
💡 技巧2：使用梯度累积。当显存不足时，可以使用梯度累积技术，将多个小批次的梯度累积起来，再进行一次参数更新，相当于增大了批次大小。
💡 技巧3：使用知识蒸馏。将大模型（如BERT-Large）的知识蒸馏到小模型（如DistilBERT）中，在保证性能损失较小的前提下，显著提升模型的推理速度。

1.6.2 BERT的改进模型

BERT提出后，研究者们提出了许多改进版本，进一步提升了模型性能：

RoBERTa：取消了NSP任务，使用更大的批次大小和更多的训练数据，性能全面超越BERT。
ALBERT：通过参数共享技术，大幅减少模型参数量，提升训练效率。
ERNIE：百度提出的中文增强版BERT，通过引入实体级和短语级的掩码策略，提升了模型对中文语义的理解能力。
SpanBERT：将掩码单位从单个token改为连续的token span，提升了模型对短语和实体的建模能力。

1.7 本章总结

✅ 预训练语言模型采用“预训练+微调”的范式，先在大规模无标注语料上学习通用语言知识，再针对具体任务进行微调。
✅ BERT是基于双向Transformer编码器的预训练模型，通过掩码语言模型和下一句预测任务，实现了双向上下文理解。
✅ 使用Hugging Face Transformers库可以快速调用BERT模型，只需少量代码即可完成中文文本分类等任务的微调。
✅ BERT模型的微调需要注意学习率的设置，通常使用2e-5或5e-5的小学习率，避免破坏预训练权重。

人工智能：预训练语言模型与BERT实战应用

Ne0inhk

人工智能：预训练语言模型与BERT实战应用

1.1 本章学习目标与重点

1.2 预训练语言模型的发展历程与核心思想

1.2.1 为什么需要预训练语言模型

1.2.2 预训练+微调的核心流程

1.3 BERT模型架构与预训练任务详解

1.3.1 BERT的核心架构

1.3.2 BERT的预训练任务

1.4 Hugging Face Transformers库快速上手

1.4.1 安装与环境配置

1.4.2 核心组件介绍

1.5 实战：基于BERT的中文文本分类任务

1.5.1 任务介绍与数据集准备

1.5.2 搭建BERT文本分类模型

1.5.3 模型微调与评估

1.5.4 模型预测与推理

1.6 BERT模型的优化与改进方向

1.6.1 模型优化技巧

1.6.2 BERT的改进模型

1.7 本章总结

Read more

突破网页数据集获取难题：Web Unlocker API 助力 AI 训练与微调数据集全方位解决方案

Spring Boot集成WebSocket，实现后台向前端推送信息

用Selenium实现一个免费的Web搜索API服务

网站检测不用等! Web-Check+cpolar让异地协作查漏洞更高效