人工智能：大语言模型（LLM）原理与应用实战

优质文章学习记录

10 Apr 2026 — 11 min read

人工智能：大语言模型（LLM）原理与应用实战

1.1 本章学习目标与重点

💡 学习目标：掌握大语言模型的核心原理、训练流程与微调方法，学会基于开源大语言模型完成定制化对话与文本生成任务。
💡 学习重点：理解大语言模型的Transformer decoder-only架构，掌握指令微调与RLHF技术，能够使用LoRA高效微调开源LLM。

1.2 大语言模型的核心概念与发展历程

1.2.1 什么是大语言模型

💡 大语言模型（Large Language Model, LLM）是参数量达到十亿级甚至万亿级的Transformer-based模型。它通过在海量文本数据上进行预训练，学习语言的语法、语义、常识和推理能力。
LLM的核心能力包括文本生成、理解、翻译、摘要、问答等。它可以处理复杂的自然语言任务，无需针对每个任务单独设计模型结构。

LLM与传统NLP模型的核心区别：

参数量级：传统模型参数量通常在千万级，LLM参数量可达十亿到万亿级。
训练数据：传统模型依赖标注数据，LLM使用海量无标注文本进行预训练。
能力边界：传统模型只能处理单一任务，LLM具备零样本/少样本泛化能力。

1.2.2 LLM的发展里程碑

GPT系列（2018-2023）：OpenAI提出的自回归语言模型，从GPT-1的1.17亿参数，到GPT-3的1750亿参数，再到GPT-4的多模态能力，引领了LLM的发展方向。
LLaMA系列（2023）：Meta推出的开源大语言模型，参数量从7B到65B，在小参数量级上实现了媲美闭源模型的性能，降低了LLM的使用门槛。
ChatGLM系列（2023）：智谱AI推出的开源中文大语言模型，针对中文语境优化，支持高效微调与部署，广泛应用于国内的LLM落地场景。
Qwen系列（2023）：阿里云推出的通义千问开源模型，支持多语言、多模态，具备优秀的推理与生成能力。

⚠️ 注意：大语言模型的性能并非完全由参数量决定，训练数据的质量、模型架构的优化、训练策略的选择都会显著影响最终效果。

1.3 大语言模型的核心架构——Decoder-only

💡 目前主流的大语言模型均采用Transformer decoder-only架构。该架构去除了Transformer的编码器部分，仅保留解码器，通过自回归的方式生成文本。

1.3.1 Decoder-only架构详解

Decoder-only架构的核心是堆叠的Transformer解码器层，每个解码器层包含两个子层：

掩码多头自注意力层：使用前瞻掩码（Look-ahead Mask），确保模型在生成文本时只能看到当前位置及之前的内容，无法看到未来的token，符合自回归生成的逻辑。
前馈神经网络层：对注意力层的输出进行非线性变换，捕捉更复杂的语言特征。

每个子层都配备残差连接和层归一化，保证模型在深层堆叠时的训练稳定性。

1.3.2 Decoder-only架构的代码实现（简化版）

import torch import torch.nn as nn import torch.nn.functional as F classMultiHeadAttention(nn.Module):def__init__(self, d_model, num_heads):super().__init__() self.d_model = d_model self.num_heads = num_heads self.d_k = d_model // num_heads self.wq = nn.Linear(d_model, d_model) self.wk = nn.Linear(d_model, d_model) self.wv = nn.Linear(d_model, d_model) self.w_o = nn.Linear(d_model, d_model)defsplit_heads(self, x, batch_size): x = x.view(batch_size,-1, self.num_heads, self.d_k)return x.transpose(1,2)defforward(self, x, mask=None): batch_size = x.size(0)# 生成Q、K、V q = self.split_heads(self.wq(x), batch_size) k = self.split_heads(self.wk(x), batch_size) v = self.split_heads(self.wv(x), batch_size)# 计算注意力分数 scores = torch.matmul(q, k.transpose(-2,-1))/ torch.sqrt(torch.tensor(self.d_k, dtype=torch.float32))if mask isnotNone: scores = scores.masked_fill(mask ==0,-1e9)# 计算注意力权重 attn_weights = F.softmax(scores, dim=-1)# 计算注意力输出 attn_output = torch.matmul(attn_weights, v) attn_output = attn_output.transpose(1,2).contiguous().view(batch_size,-1, self.d_model)return self.w_o(attn_output)classFeedForward(nn.Module):def__init__(self, d_model, d_ff):super().__init__() self.linear1 = nn.Linear(d_model, d_ff) self.linear2 = nn.Linear(d_ff, d_model) self.relu = nn.ReLU()defforward(self, x):return self.linear2(self.relu(self.linear1(x)))classDecoderLayer(nn.Module):def__init__(self, d_model, num_heads, d_ff):super().__init__() self.self_attn = MultiHeadAttention(d_model, num_heads) self.feed_forward = FeedForward(d_model, d_ff) self.layernorm1 = nn.LayerNorm(d_model) self.layernorm2 = nn.LayerNorm(d_model) self.dropout = nn.Dropout(0.1)defforward(self, x, mask):# 掩码自注意力 + 残差连接 + 层归一化 attn_output = self.self_attn(x, mask) x = self.layernorm1(x + self.dropout(attn_output))# 前馈网络 + 残差连接 + 层归一化 ff_output = self.feed_forward(x) x = self.layernorm2(x + self.dropout(ff_output))return x classDecoderOnlyLLM(nn.Module):def__init__(self, vocab_size, d_model, num_heads, num_layers, d_ff):super().__init__() self.embedding = nn.Embedding(vocab_size, d_model) self.pos_encoding = nn.Embedding(1024, d_model)# 最大序列长度1024 self.decoder_layers = nn.ModuleList([ DecoderLayer(d_model, num_heads, d_ff)for _ inrange(num_layers)]) self.fc = nn.Linear(d_model, vocab_size)defgenerate_look_ahead_mask(self, seq_len):# 生成前瞻掩码，防止看到未来token mask = torch.tril(torch.ones((seq_len, seq_len)))return mask defforward(self, x): batch_size, seq_len = x.size()# 词嵌入 + 位置编码 positions = torch.arange(0, seq_len).expand(batch_size, seq_len).to(x.device) x = self.embedding(x)+ self.pos_encoding(positions)# 生成掩码 mask = self.generate_look_ahead_mask(seq_len).to(x.device)# 逐层解码for layer in self.decoder_layers: x = layer(x, mask)# 输出vocab_size维度的logits logits = self.fc(x)return logits # 初始化一个小型Decoder-only LLM vocab_size =10000 d_model =512 num_heads =8 num_layers =6 d_ff =2048 model = DecoderOnlyLLM(vocab_size, d_model, num_heads, num_layers, d_ff)print(model)

1.4 大语言模型的训练流程

💡 大语言模型的训练分为两个核心阶段：预训练和微调。预训练让模型学习通用语言知识，微调让模型适配特定任务或场景。

1.4.1 预训练阶段

预训练的目标是让模型学习语言的概率分布，即给定前文，预测下一个token的概率。

数据准备：收集海量无标注文本数据，涵盖书籍、网页、论文、对话等多种类型，进行清洗、去重、分词等预处理。
训练目标：采用**自回归语言建模（Autoregressive Language Modeling, ALM）**损失，最小化负对数似然：
L=−∑i=1nlog⁡p(xi∣x1,x2,...,xi−1;θ)L = -\sum_{i=1}^n \log p(x_i | x_1, x_2, ..., x_{i-1}; \theta)L=−i=1∑nlogp(xi∣x1,x2,...,xi−1;θ)
训练策略：使用大批次大小、长训练周期、低学习率，结合混合精度训练、梯度累积等技术，解决大模型训练的算力瓶颈。

⚠️ 注意：预训练需要海量的算力资源，通常由大厂或研究机构完成。普通开发者无需重复预训练，直接使用开源预训练模型即可。

1.4.2 微调阶段

微调是大语言模型落地的关键步骤，分为以下几种类型：

指令微调（Instruction Tuning）：使用指令-响应对的数据集训练模型，让模型理解人类指令，生成符合要求的回答。
对话微调（Dialogue Tuning）：使用多轮对话数据训练模型，提升模型的多轮交互能力，适用于聊天机器人场景。
领域微调（Domain Tuning）：使用特定领域的数据（如医疗、法律、金融）训练模型，让模型掌握领域知识。
RLHF（Reinforcement Learning from Human Feedback）：通过人类反馈的强化学习，对齐模型输出与人类偏好，提升模型的可用性与安全性。

1.5 实战：基于LLaMA-2的LoRA高效微调

💡 全参数微调大语言模型需要巨大的算力，**LoRA（Low-Rank Adaptation）**是一种高效微调方法。它通过在注意力层插入低秩矩阵，仅训练少量参数，即可实现与全参数微调相当的效果。

1.5.1 环境准备与依赖安装

# 安装必要依赖 pip install transformers datasets peft accelerate torch bitsandbytes

1.5.2 加载数据集与预处理

本次实战使用Alpaca中文指令数据集，包含5万条中文指令-响应对，用于微调LLaMA-2-7B模型。

from datasets import load_dataset from transformers import AutoTokenizer # 加载中文Alpaca数据集 dataset = load_dataset("silk-road/alpaca-data-gpt4-chinese")# 加载LLaMA-2分词器 tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf", use_fast=False) tokenizer.pad_token = tokenizer.eos_token # 设置pad_token为eos_token# 定义数据格式化函数defformat_prompt(sample): instruction = sample["instruction"] input_text = sample["input"] output_text = sample["output"]if input_text: prompt =f"### 指令:\n{instruction}\n### 输入:\n{input_text}\n### 输出:\n{output_text}"else: prompt =f"### 指令:\n{instruction}\n### 输出:\n{output_text}"return{"prompt": prompt}# 格式化数据集 dataset = dataset.map(format_prompt)# 定义分词函数deftokenize_function(sample): tokenized = tokenizer( sample["prompt"], max_length=512, truncation=True, padding="max_length", return_tensors="pt")# 设置labels，与input_ids相同（自回归训练） tokenized["labels"]= tokenized["input_ids"].clone()return tokenized # 分词处理 tokenized_dataset = dataset.map(tokenize_function, batched=True)# 划分训练集和验证集 tokenized_dataset = tokenized_dataset["train"].train_test_split(test_size=0.1)

1.5.3 配置LoRA与加载模型

from transformers import AutoModelForCausalLM, TrainingArguments, Trainer from peft import LoraConfig, get_peft_model, TaskType # 配置LoRA参数 lora_config = LoraConfig( task_type=TaskType.CAUSAL_LM, r=8,# 低秩矩阵的秩 lora_alpha=32,# 缩放系数 lora_dropout=0.1,# dropout概率 target_modules=["q_proj","v_proj"],# 仅微调注意力层的q和v投影矩阵 bias="none", inference_mode=False)# 加载LLaMA-2-7B模型，使用4bit量化降低显存占用 model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-hf", load_in_4bit=True, device_map="auto", torch_dtype=torch.float16 )# 为模型添加LoRA适配器 model = get_peft_model(model, lora_config)# 查看可训练参数数量 model.print_trainable_parameters()# 输出类似: trainable params: 约400万 || all params: 约70亿 || trainable%: 0.06

1.5.4 配置训练参数与启动训练

# 配置训练参数 training_args = TrainingArguments( output_dir="./llama-2-7b-lora-chinese", per_device_train_batch_size=4, per_device_eval_batch_size=4, gradient_accumulation_steps=4, learning_rate=2e-4, num_train_epochs=3, logging_steps=10, evaluation_strategy="epoch", save_strategy="epoch", fp16=True, remove_unused_columns=False, report_to="none")# 初始化Trainer trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_dataset["train"], eval_dataset=tokenized_dataset["test"], tokenizer=tokenizer )# 启动训练 trainer.train()# 保存LoRA适配器 model.save_pretrained("./llama-2-7b-lora-chinese-adapter")

1.5.5 模型推理与效果验证

from peft import PeftModel # 加载基座模型 base_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-hf", load_in_4bit=True, device_map="auto", torch_dtype=torch.float16 )# 加载LoRA适配器 peft_model = PeftModel.from_pretrained(base_model,"./llama-2-7b-lora-chinese-adapter")# 定义推理函数defgenerate_response(instruction, input_text=""):if input_text: prompt =f"### 指令:\n{instruction}\n### 输入:\n{input_text}\n### 输出:\n"else: prompt =f"### 指令:\n{instruction}\n### 输出:\n" inputs = tokenizer(prompt, return_tensors="pt").to("cuda")# 生成回答 outputs = peft_model.generate(**inputs, max_new_tokens=200, temperature=0.7, top_p=0.9, do_sample=True, repetition_penalty=1.1)# 解码输出 response = tokenizer.decode(outputs[0], skip_special_tokens=True)# 提取输出部分 output = response.split("### 输出:\n")[1]return output # 测试推理 instruction ="解释一下什么是大语言模型" response = generate_response(instruction)print(f"指令: {instruction}")print(f"回答: {response}")

1.6 大语言模型的部署与优化

1.6.1 部署方式

本地部署：适用于开发测试，使用transformers库直接加载模型，支持CPU/GPU推理。
服务化部署：使用FastAPI、Flask等框架封装模型，提供HTTP接口，支持多客户端调用。
云端部署：使用阿里云、腾讯云等平台的GPU实例，结合容器化技术（Docker、K8s），实现弹性扩容。
边缘部署：使用量化、蒸馏等技术压缩模型，部署到边缘设备（如手机、嵌入式设备）。

1.6.2 性能优化技巧

💡 技巧1：模型量化。使用INT4/INT8量化，降低模型显存占用，提升推理速度。
💡 技巧2：模型蒸馏。将大模型的知识蒸馏到小模型中，在保证性能的前提下，显著提升推理效率。
💡 技巧3：推理框架优化。使用vLLM、TensorRT-LLM等高性能推理框架，通过PagedAttention等技术，提升吞吐量和响应速度。

1.7 本章总结

✅ 大语言模型基于Transformer decoder-only架构，通过海量文本预训练和指令微调，具备强大的自然语言理解与生成能力。
✅ LoRA是一种高效微调方法，通过训练少量低秩参数，即可实现大语言模型的定制化适配，大幅降低算力需求。
✅ 大语言模型的部署需要结合量化、蒸馏、高性能推理框架等技术，平衡性能与资源消耗。
✅ 大语言模型的发展方向是多模态、高效率、高安全性，未来将在更多行业场景中落地应用。

人工智能：大语言模型（LLM）原理与应用实战

优质文章学习记录

人工智能：大语言模型（LLM）原理与应用实战

1.1 本章学习目标与重点

1.2 大语言模型的核心概念与发展历程

1.2.1 什么是大语言模型

1.2.2 LLM的发展里程碑

1.3 大语言模型的核心架构——Decoder-only

1.3.1 Decoder-only架构详解

1.3.2 Decoder-only架构的代码实现（简化版）

1.4 大语言模型的训练流程

1.4.1 预训练阶段

1.4.2 微调阶段

1.5 实战：基于LLaMA-2的LoRA高效微调

1.5.1 环境准备与依赖安装

1.5.2 加载数据集与预处理

1.5.3 配置LoRA与加载模型

1.5.4 配置训练参数与启动训练

1.5.5 模型推理与效果验证

1.6 大语言模型的部署与优化

1.6.1 部署方式

1.6.2 性能优化技巧

1.7 本章总结

Read more

【AI开发】—— Copilot最佳使用方式与配置

【Claude Code解惑】深度评测：Claude Code vs. GitHub Copilot CLI，谁才是终端之王？

Stable Diffusion印象派滤镜实战：云端10分钟出作品，成本1块钱

彻底关闭Win10中烦人的365 Copilot弹窗的6种方法