AI 基础概念全景指南

优质文章学习记录

08 Apr 2026 — 25 min read

📖 写在前面

人工智能（AI）正在重塑我们的世界。从 ChatGPT 到自动驾驶，从医疗诊断到艺术创作，AI 无处不在。

但对于初学者来说，AI 领域充满了复杂的概念：机器学习、深度学习、神经网络、Transformer、LLM、AGI...

本文将以通俗易懂的方式，系统性地介绍 AI 的核心概念，帮助你建立完整的知识体系。

🎯 一、AI 层次结构

1.1 概念层次图

┌─────────────────────────────────────────┐ │           人工智能 (AI)                   │ │   让机器展现智能行为的技术总称            │ └─────────────────────────────────────────┘                     ↓ ┌─────────────────────────────────────────┐ │          机器学习 (ML)                    │ │   从数据中学习规律，无需显式编程          │ └─────────────────────────────────────────┘                     ↓ ┌─────────────────────────────────────────┐ │         深度学习 (DL)                     │ │   使用多层神经网络进行学习                │ └─────────────────────────────────────────┘                     ↓ ┌─────────────────────────────────────────┐ │       生成式 AI (Generative AI)           │ │   能够创造新内容（文本、图像、音频）       │ └─────────────────────────────────────────┘                     ↓ ┌─────────────────────────────────────────┐ │        基础模型 (Foundation Models)       │ │   在大规模数据上预训练的通用模型           │ └─────────────────────────────────────────┘                     ↓ ┌─────────────────────────────────────────┐ │      大语言模型 (LLM)                    │ │   专门处理文本的超大规模模型              │ └─────────────────────────────────────────┘

1.2 快速对比

概念	定义	典型应用
AI	模拟人类智能	所有智能系统
ML	机器学习	推荐、分类
DL	多层神经网络	图像识别、NLP
LLM	超大规模语言模型	ChatGPT、Claude
AGI	通用人工智能	尚未实现

🧠 二、核心概念详解

2.1 人工智能（AI）

定义：让机器模拟人类智能行为的技术总称。

三大流派：

1. 符号主义（Symbolic AI）    └── 基于规则和逻辑推理    └── 专家系统、知识图谱 2. 连接主义（Connectionism）    └── 模拟人脑神经元    └── 神经网络、深度学习 3. 行为主义（Behaviorism）    └── 通过交互学习    └── 强化学习、进化算法

AI 的分类：

类型	能力	例子
弱 AI (Narrow AI)	专注特定任务	AlphaGo、Siri、推荐系统
强 AI (General AI)	具备人类水平智能	AGI（尚未实现）
超 AI (Super AI)	超越人类智能	科幻作品中的 AI

2.2 机器学习（ML）

定义：让计算机从数据中学习规律，而不是通过显式编程。

核心三要素：

# 机器学习的公式 模型 + 数据 + 优化算法 = 预测能力 # 示例：预测房价 模型 = 决策树 / 神经网络 / 线性回归 数据 = 历史房价数据（面积、位置、房龄） 算法 = 梯度下降 / 随机森林 结果 = 能够预测新房价

学习方式：

1. 监督学习（Supervised Learning）    └── 有标签数据    └── 分类：垃圾邮件检测    └── 回归：房价预测 2. 无监督学习（Unsupervised Learning）    └── 无标签数据    └── 聚类：用户分群    └── 降维：数据压缩 3. 强化学习（Reinforcement Learning）    └── 通过奖励学习    └── 游戏 AI：AlphaGo    └── 机器人控制

2.3 神经网络（Neural Network）

核心思想：模拟人脑神经元的工作方式。

单个神经元：

输入 → [权重] → [激活函数] → 输出 数学表达： y = f(Σ(wᵢ × xᵢ) + b) 其中： xᵢ = 输入 wᵢ = 权重（可学习参数） b = 偏置（bias） f = 激活函数（ReLU, Sigmoid, Tanh）

激活函数对比：

激活函数	公式	特点	应用场景
Sigmoid	1/(1+e⁻ˣ)	输出 0-1	二分类（历史）
Tanh	(eˣ-e⁻ˣ)/(eˣ+e⁻ˣ)	输出 -1 到 1	RNN（历史）
ReLU	max(0,x)	解决梯度消失	当前主流
GELU	平滑版 ReLU	性能更好	Transformer

多层感知器（MLP）：

输入层              隐藏层              输出层   [x₁] ──→         [h₁] ──→         [y₁]   [x₂] ──→   [w₁]  [h₂] ──→   [w₂]  [y₂]   [x₃] ──→         [h₃] ──→         [y₃]               ↓              ↓           前向传播        反向传播               （计算）        （学习）

2.4 深度学习（Deep Learning）

定义：使用多层神经网络进行学习的机器学习方法。

为什么需要"深度"？

层次抽象： 输入层  →  原始像素 第一层  →  边缘、线条 第二层  →  眼睛、鼻子 第三层  →  人脸 输出层  →  识别结果 每一层都在学习更高层次的特征抽象！

深度学习 vs 传统机器学习：

维度	传统 ML	深度学习
特征工程	手动设计	自动学习
数据需求	小样本	大数据
计算资源	低	GPU 密集型
可解释性	高	低（黑盒）
表现上限	中等	极高

经典深度学习模型：

# CNN（卷积神经网络）- 图像处理 Conv2D → ReLU → MaxPool → FC → Softmax └── 应用：图像分类、目标检测 # RNN（循环神经网络）- 序列数据 LSTM → GRU → Bidirectional └── 应用：语音识别、机器翻译 # Transformer - 注意力机制 Self-Attention → FFN → LayerNorm └── 应用：**GPT、BERT、Claude**

🚀 三、Transformer：革命性架构

3.1 核心思想

传统 RNN 的问题：

序列处理：[A] [B] [C] [D] [E] [F] [G] [H]             ↓   ↓   ↓   ↓   ↓   ↓   ↓   ↓ RNN:      [→  →  →  →  →  →  →  →]  → 输出           ↑────────↑           距离远，信息丢失           难以并行（必须按顺序）

Transformer 的突破：

Self-Attention：所有词同时关注所有词！ [A] [B] [C] [D] [E] [F] [G] [H]   ↓    ↓    ↓    ↓    ↓    ↓    ↓    ↓   └────┴────┴────┴────┴────┴────┘               ↓        [并行处理！]               ↓        [全局上下文]

3.2 Self-Attention 机制

核心公式：

# 注意力计算 Attention(Q, K, V) = softmax(QKᵀ / √dₖ) × V 其中： Q (Query)  = 查询向量 K (Key)    = 键向量 V (Value)  = 值向量 dₖ         = 缩放因子（防止梯度爆炸）

直观理解：

查询示例： Q: "苹果" 在关注什么？ K: ["苹果", "公司", "红色", "好吃", "水果"] V: [Tech, Color, Taste, Category] Attention("苹果", ...) = {     "苹果": 0.8,    # 高关注（同一词）     "公司": 0.6,    # 中等关注（可能是 Apple 公司）     "红色": 0.3,    # 低关注（颜色属性）     "好吃": 0.2,    # 低关注     "水果": 0.5,    # 中等关注（类别） } 结果：综合所有值的加权和

3.3 Transformer 结构

输入文本    ↓ [Embedding + Positional Encoding]    ↓ ┌─────────────────────────────────┐ │   Encoder × N（编码器）         │ │   ┌─────────────────────┐      │ │   │ Self-Attention       │      │ │   ├─────────────────────┤      │ │   │ Feed Forward Network │      │ │   └─────────────────────┘      │ └─────────────────────────────────┘    ↓ ┌─────────────────────────────────┐ │   Decoder × N（解码器）         │ │   ┌─────────────────────┐      │ │   │ Masked Self-Attn     │      │ │   ├─────────────────────┤      │ │   │ Encoder-Decoder Attn│      │ │   ├─────────────────────┤      │ │   │ Feed Forward Network │      │ │   └─────────────────────┘      │ └─────────────────────────────────┘    ↓ 输出概率

为什么 Transformer 如此成功？

并行化：可以同时处理所有位置
长距离依赖：任意两个词都可以直接交互
可扩展：通过增加层数和参数提升性能

💬 四、大语言模型（LLM）

4.1 定义

大语言模型（Large Language Model）：基于 Transformer 架构，在海量文本数据上训练的超大规模神经网络。

"大"的含义：

维度	数量级	对比
参数量	10亿 - 1万亿+	GPT-4: ~1.8T
训练数据	TB 级文本	整个互联网文本
模型大小	GB - TB 级	需要数千 GPU
训练成本	百万 - 千万美元	GPT-4 训练成本 ~$100M

4.2 核心能力

1. 自然语言理解（NLU）

输入："今天天气真好" ↓ LLM 理解： - 情感：积极、愉悦 - 意图：陈述天气 - 上下文：可能想外出或聊天

2. 自然语言生成（NLG）

输入："写一首关于春天的诗" ↓ LLM 生成： "春风拂柳绿丝长， 百花开满园中香。 燕子归来寻旧垒， 一片生机在远方。"

3. 上下文学习（In-Context Learning）

提示（Prompt）： """ 5 + 3 = 8 7 + 2 = 9 9 + 4 = 13 6 + 8 = ? 答案：14 """ LLM 通过少量示例学会模式，无需重新训练！

4. 思维链（Chain of Thought）

问题："小明有5个苹果，吃了2个，又买了3个，现在有几个？" 简单回答：6个 思维链： """ 初始：5个 吃了2个：5 - 2 = 3个 买了3个：3 + 3 = 6个 答案：6个 """ 思维链能显著提升复杂任务的准确性！

4.3 主流 LLM 对比

模型	公司	参数量	特点
GPT-4	OpenAI	~1.8T	多模态、代码能力强
Claude 3	Anthropic	不公开	长文本、安全
Gemini	Google	不公开	多模态、Google 生态
文心一言	百度	不公开	中文优化
通义千问	阿里	不公开	中文、开源

🔧 五、训练与推理

5.1 预训练（Pre-training）

目标：学习语言的通用知识。

# 预训练任务：预测下一个词 输入："今天天气" 目标："真" / "很" / "不错" / ... # 在海量文本上训练 数据源：网页、书籍、代码、论文 训练时间：数周到数月 硬件需求：数千张 GPU

预训练学到的能力：

语法规则
世界知识
推理能力
编程能力
多语言能力

5.2 微调（Fine-tuning）

目标：适应特定任务或领域。

# 基础模型（如 LLaMA） ↓ 微调数据（医疗、法律、金融） ↓ 领域专用模型

微调方式：

全量微调：更新所有参数
LoRA 微调：只更新少量参数
Prompt 微调：不更新参数，只调整提示

5.3 推理（Inference）

定义：使用训练好的模型进行预测。

# 推理流程 输入文本 → Token化 → Embedding → Transformer → 概率分布 → 采样输出 # 性能指标 延迟（Latency）：生成第一个 token 的时间 吞吐量（Throughput）：每秒生成的 token 数

推理优化技术：

量化：FP16 → INT8（减少内存和计算）
KV Cache：缓存中间结果（加速生成）
Flash Attention：优化注意力计算
投机采样：快速生成草稿，然后验证

📊 六、关键概念对比

6.1 参数规模演进

2017: Transformer   -  65M 参数 2018: BERT         -  340M 参数 2018: GPT-1        -  117M 参数 2019: GPT-2        -  1.5B 参数 2020: GPT-3        -  175B 参数 2023: GPT-4        -  ~1.8T 参数（推测） 2024: Claude 4     -  不公开（更大）

6.2 Token 词表

# Tokenization: 文本 → 数字序列 文本："Hello, world!" Tokens: ["Hello", ",", "world", "!"] IDs:   [15496,   11,   995,    0] # 常见 Tokenizer GPT-2/3: Byte-Pair Encoding (BPE) BERT:   WordPiece LLaMA:  SentencePiece

为什么 Token 重要？

输入/输出都基于 Token
Token 数量直接影响成本和速度
中文 Token 化效率较低（1 个中文字 ≈ 2-3 tokens）

Token 处理流程：

原始文本     ↓ [分词 Tokenizer]     ↓ Token 序列: ["我", "爱", "编程"]     ↓ [词表映射]     ↓ Token IDs:  [2341, 876, 5432]     ↓ [嵌入层 Embedding]     ↓ 向量表示:    [0.2, -0.5, 0.8, ...]

6.3 Embedding（嵌入）

定义：将离散的 Token ID 转换为连续的数值向量，使其能够捕捉语义信息。

# Token → 向量转换 Token ID: 2341     ↓ 查询嵌入表 (Embedding Table)     ↓ 向量: [0.23, -0.45, 0.67, 0.12, ..., 0.89] 维度: 通常为 768, 1024, 3072 等

完整 Embedding 组成（以 BERT 为例）：

最终嵌入 = Token Embedding + Position Embedding + Segment Embedding ┌─────────────────────────────────────────┐ │  Token Embedding（词嵌入）              │ │  将 token ID 转换为语义向量             │ ├─────────────────────────────────────────┤ │  Position Embedding（位置嵌入）         │ │  标识 token 在序列中的位置              │ ├─────────────────────────────────────────┤ │  Segment Embedding（句子嵌入）          │ │  区分不同句子（如问答对）               │ └─────────────────────────────────────────┘

为什么需要 Embedding？

问题	传统方法 (One-Hot)	Embedding
向量维度	极高（词表大小）	固定低维（768/1024）
语义关系	无法捕捉	能捕捉相似性
计算效率	低（稀疏矩阵）	高（密集向量）
泛化能力	无	强

语义相似性示例：

"猫" 的向量:  [0.8, 0.2, 0.9, ...] "狗" 的向量:  [0.7, 0.3, 0.8, ...]  ← 相似度高 "汽车"的向量: [-0.5, 0.9, 0.1, ...]  ← 相似度低 余弦相似度("猫", "狗") = 0.95 余弦相似度("猫", "汽车") = 0.12

主流 Embedding 模型：

BERT: 768 维
GPT Embeddings: 768-12288 维（取决于模型大小）
text-embedding-ada-002: 1536 维
gemini-embedding-001: 3072 维

6.4 上下文窗口（Context Window）

定义：模型在生成新文本时可以回顾和参考的全部文本量，相当于模型的"工作记忆"。

# 模型能处理的最大文本长度（2024-2025最新数据） GPT-3:           2048 tokens GPT-4o/Turbo:    128k tokens GPT-4.1:         1,000,000 tokens Claude 3.5:      200k tokens Claude Sonnet 4: 1,000,000 tokens Gemini 1.5/2.0:  1,000,000 tokens Gemini 2.5 Pro:  1,048,576 tokens # 实际应用 128k tokens  ≈ 300页中文文档  ≈ 10万字 1M tokens    ≈ 2500页中文文档 ≈ 100万字

上下文窗口的工作原理：

┌─────────────────────────────────────────┐ │         Context Window (128k)           │ ├─────────────────────────────────────────┤ │ 系统提示 (System Prompt)                │ │ ├─ 角色定义                             │ │ ├─ 行为准则                             │ │ └─ 任务描述                             │ ├─────────────────────────────────────────┤ │ 历史对话 (Conversation History)         │ │ ├─ 用户: 问题 1                         │ │ ├─ 助手: 回答 1                         │ │ ├─ 用户: 问题 2                         │ │ └─ 助手: 回答 2                         │ ├─────────────────────────────────────────┤ │ 当前输入 (Current Input)                │ │ └─ 用户: 新问题                         │ ├─────────────────────────────────────────┤ │ 生成输出 (Generation)                   │ │ └─ 助手: 新回答 (逐步生成)              │ └─────────────────────────────────────────┘ 重要: 输入 + 输出 ≤ 上下文窗口

上下文窗口的限制与挑战：

挑战	说明	解决方案
遗忘问题	超出窗口的历史会被丢弃	RAG（检索增强生成）
质量下降	长上下文中信息密度降低	滑动窗口、重排序
成本增加	更长上下文 = 更高成本	精简提示、选择性保留
推理延迟	长序列计算复杂度高	KV Cache、Flash Attention

上下文压缩技术：

# 1. 滑动窗口（保留最近的对话） 历史对话 = [对话[-10:]]  # 只保留最后10轮 # 2. 摘要压缩（将旧对话压缩为摘要） 历史摘要 = summarize(旧对话) 新上下文 = 历史摘要 + 最近对话 # 3. RAG（检索相关内容） 相关内容 = retrieve(知识库, 当前问题) 上下文 = 相关内容 + 当前问题

6.5 Max Tokens（最大输出长度）

定义：控制模型单次生成的最大 Token 数量。

# API 调用示例 response = openai.ChatCompletion.create(     model="gpt-4",     messages=messages,     max_tokens=1000  # 最多生成 1000 个 tokens ) # 影响因素 max_tokens = 1000     # 输出约 750 个汉字（中文） max_tokens = 2000     # 输出约 1500 个汉字 max_tokens = 4096     # 输出约 3000 个汉字

Max Tokens vs Context Window：

Context Window = 输入 tokens + 输出 tokens                   ↑              ↑               (用户发送)     (Max Tokens) 示例: Context Window = 128k 输入: 100k tokens 最大输出: 28k tokens (受 max_tokens 限制)

如何选择 Max Tokens：

场景	推荐 Max Tokens
简短回答	256-512
中等回答	512-1024
长篇文章	1024-2048
代码生成	1024-4096
文档翻译	2048-4096

6.6 Stop Tokens（停止词）

定义：指定一个或多个字符串，当模型生成内容遇到这些字符串时自动停止。

# API 调用示例 response = openai.ChatCompletion.create(     model="gpt-4",     messages=messages,     stop=["\n\n", "END", "###"]  # 遇到这些字符串时停止 ) # 应用场景 1. 生成固定格式数据    stop = "}"# 生成 JSON 时在 } 处停止 2. 控制输出长度    stop = "\n\n"# 段落结束即停止 3. 多轮对话分割    stop = "USER:"# 用户输入时停止

Stop vs Max Tokens：

维度	Stop Tokens	Max Tokens
停止条件	遇到指定字符串	达到 Token 数量
控制精度	高（精确匹配）	中（估计值）
灵活性	需要预知输出	通用
应用场景	结构化输出	通用场景

🎯 七、AI 生态系统

7.1 开源 vs 闭源

类型	代表模型	特点
闭源 API	GPT-4, Claude	性能最强，按需付费
开源权重	LLaMA, Mistral	可本地部署，可控性强
开放 API	Gemini, 文心	免费额度，生态丰富

7.2 技术栈

# AI 开发技术栈 ├── 框架 │   ├── PyTorch  # 学术研究主流 │   ├── TensorFlow  # 工业界广泛使用 │   └── JAX  # 高性能计算 ├── 库 │   ├── Transformers (Hugging Face)  # 模型库 │   ├── LangChain  # 应用框架 │   └── LlamaIndex  # 数据框架 └── 工具     ├── Ollama  # 本地运行     ├── vLLM  # 高性能推理     └── TensorRT-LLM  # NVIDIA 优化

7.3 开发流程

1. 数据准备    └── 收集、清洗、标注 2. 模型选择    └── 开源模型 vs API 服务 3. 提示工程    └── 设计有效的 Prompt 4. 微调（可选）    └── LoRA, QLoRA 5. 评估    └── 准确性、效率、成本 6. 部署    └── 云端、边缘设备

🌐 八、实际应用

8.1 应用领域

自然语言处理 ├── 聊天机器人 ├── 机器翻译 ├── 文本摘要 └── 情感分析 计算机视觉 ├── 图像分类 ├── 目标检测 ├── 图像生成 └── 视频理解 语音处理 ├── 语音识别 ├── 语音合成 └── 声音克隆 推荐系统 ├── 电商推荐 ├── 视频推荐 └── 广告投放

8.2 典型案例

1. ChatGPT（对话系统）

用户：帮我写一个 Python 函数计算斐波那契数列 ChatGPT： def fibonacci(n):     if n <= 1:         return n     return fibonacci(n-1) + fibonacci(n-2) # 进一步优化...

2. GitHub Copilot（代码助手）

# 开发者写注释 # 从数据库获取用户列表，按年龄排序 # AI 自动补全 users = db.query(User).order_by(User.age).all()

3. Midjourney（图像生成）

提示词： "一只可爱的猫咪， 坐在窗台上， 阳光透过窗户， 水彩画风格" ↓ AI 生成精美图片

🔮 九、未来趋势

9.1 技术趋势

1. 模型规模    └── 从"更大"到"更高效"    └── 稀疏激活、混合专家（MoE） 2. 多模态    └── 文本 + 图像 + 音频 + 视频    └── GPT-4V, Gemini Ultra 3. 智能体（Agent）    └── 从"对话"到"行动"    └── AutoGPT, BabyAGI 4. 具身智能    └── AI + 机器人    └── 人形机器人、自动驾驶

9.2 挑战

1. 幻觉（Hallucination）

LLM 可能"自信地胡说八道"： 用户："林黛玉是谁？ LLM："《水浒传》中的女英雄..." 问题：如何确保准确性？ 解决：RAG（检索增强生成）

2. 安全与对齐

挑战：如何让 AI 符合人类价值观？ 方法： - RLHF（人类反馈强化学习） - Constitutional AI（宪法式 AI） - Red Teaming（红队测试）

3. 计算资源

训练成本：数百万美元 推理成本：每次请求 $0.001 - $0.1 环境代价：大量电力消耗 解决方案： - 模型蒸馏 - 量化压缩 - 高效硬件（TPU、NPU）

🎨 十、Prompt Engineering 与参数控制

10.1 Prompt（提示词）基础

定义：发送给 LLM 的文本指令，用于引导模型生成期望的输出。

Prompt 的组成结构：

┌─────────────────────────────────────────┐ │           完整 Prompt                    │ ├─────────────────────────────────────────┤ │ 1. System Message（系统消息）            │ │    "你是一个专业的 Python 编程助手..."   │ ├─────────────────────────────────────────┤ │ 2. Context（上下文）                     │ │    "用户正在学习数据结构..."             │ ├─────────────────────────────────────────┤ │ 3. Task Description（任务描述）          │ │    "请帮我写一个二叉树遍历函数..."       │ ├─────────────────────────────────────────┤ │ 4. Examples（示例，可选）                │ │    "输入: [1,2,3] → 输出: [1,2,3]"      │ ├─────────────────────────────────────────┤ │ 5. Input Format（输入格式）              │ │    "输入是一个整数列表..."               │ ├─────────────────────────────────────────┤ │ 6. Output Format（输出格式）             │ │    "请以 JSON 格式返回结果..."           │ ├─────────────────────────────────────────┤ │ 7. Constraints（约束条件）                │ │    "不要使用递归，时间复杂度 O(n)"       │ └─────────────────────────────────────────┘

10.2 Prompt Engineering 核心技巧

1. Zero-Shot（零样本学习）

# 不提供示例，直接指令 prompt = """ 将以下文本翻译成英文： 人工智能正在改变世界。 """ # 优点：简单快速 # 缺点：复杂任务准确率较低

2. Few-Shot（少样本学习）

# 提供示例引导模型 prompt = """ 示例 1: 输入: 我很高兴 输出: 积极 示例 2: 输入: 今天真倒霉 输出: 消极 示例 3: 输入: 这个产品太棒了 输出: 积极 现在请分析: 输入: 服务态度很差 输出: """ # 优点: 提升准确率，明确输出格式 # 缺点: 消耗更多 tokens

3. Chain-of-Thought (CoT) - 思维链

# 引导模型展示推理过程 prompt = """ 问题: 小明有 5 个苹果，吃了 2 个，又买了 3 个，现在有几个苹果？ 让我们一步步思考: 1. 小明最初有 5 个苹果 2. 吃了 2 个，剩下 5 - 2 = 3 个 3. 又买了 3 个，现在有 3 + 3 = 6 个 答案: 6 个 现在请解决: 小红有 10 支铅笔，送给同学 3 支，又买了 5 支，现在有几支？ """ # 优点: 显著提升复杂推理任务准确率 # 应用: 数学、逻辑、代码推理

4. Prompt Chaining（链式提示）

# 将复杂任务分解为多个步骤 # Step 1: 信息提取 prompt1 = "从以下文本中提取所有日期..." # Step 2: 信息整理 prompt2 = "将提取的日期按时间顺序排列..." # Step 3: 生成报告 prompt3 = "根据排序后的日期生成时间线报告..." # 优点: 处理复杂任务，提高准确性 # 缺点: 多次 API 调用，成本增加

5. Self-Consistency（自洽性）

# 多次采样，选择最一致的答案 for i in range(5):     answer = model.generate(prompt, temperature=0.7)     answers.append(answer) # 投票选择最常见答案 final_answer = most_common(answers) # 优点: 提升推理可靠性 # 应用: 数学、逻辑推理任务

10.3 Temperature（温度参数）

定义：控制模型输出的随机性和创造性。

response = openai.ChatCompletion.create(     model="gpt-4",     messages=messages,     temperature=0.7  # 0.0 - 2.0 )

Temperature 对输出的影响：

Temperature	特点	输出风格	适用场景
0.0 - 0.3	低随机性	确定性、保守、一致	代码生成、数据提取、问答
0.4 - 0.7	中等随机性	平衡、自然	对话、写作、翻译
0.8 - 1.0	高随机性	创造性、多样	创意写作、头脑风暴
1.0 - 2.0	极高随机性	不可预测、可能混乱	实验性、艺术创作

直观示例：

# Temperature = 0.1（低） Prompt: "讲一个关于猫的故事" 输出: "有一只小猫，它喜欢玩毛线球。有一天..." # Temperature = 1.0（高） Prompt: "讲一个关于猫的故事" 输出: "在2077年的霓虹城市中，一只名为'闪电'的赛博猫..." # Temperature = 0.1（重复调用） 输出1: "Hello, world!" 输出2: "Hello, world!" 输出3: "Hello, world!" # Temperature = 1.0（重复调用） 输出1: "Hello, world!" 输出2: "Hi there!" 输出3: "Greetings, friend!"

如何选择 Temperature：

# 代码生成 - 低温度 generate_code(temperature=0.1) # 创意写作 - 高温度 write_story(temperature=0.9) # 翻译 - 低温度 translate(text, temperature=0.2) # 头脑风暴 - 高温度 brainstorm(ideas, temperature=1.0) # 对话 - 中等温度 chat(temperature=0.7)

10.4 Top-p (Nucleus Sampling)

定义：从累积概率达到 p 的最小 token 集合中采样。

response = openai.ChatCompletion.create(     model="gpt-4",     messages=messages,     top_p=0.9  # 0.0 - 1.0 )

Top-p 工作原理：

Token 概率分布: "的": 0.30 "是": 0.25 "在": 0.20 "了": 0.10 "我":  0.08 "你":  0.04 "他":  0.02 "她":  0.01 Top-p = 0.5: → 选择 ["的", "是"] (累积概率 0.30 + 0.25 = 0.55 ≥ 0.5) → 从这两个 token 中随机采样 Top-p = 0.9: → 选择 ["的", "是", "在", "了", "我"] (累积概率 0.93 ≥ 0.9) → 从这五个 token 中随机采样 Top-p = 1.0: → 从所有 token 中采样（等同于标准采样）

Top-p vs Temperature：

维度	Temperature	Top-p
作用	调整概率分布形状	限制候选 token 范围
值越大	越随机	越多候选 token
常用值	0.0 - 1.0	0.9 - 1.0
推荐设置	二选一，通常不用同时调整

10.5 参数组合建议

常用参数配置：

# 1. 代码生成（确定性） {     "temperature": 0.1,     "top_p": 1.0,     "max_tokens": 2000 } # 2. 创意写作（创造性） {     "temperature": 0.9,     "top_p": 1.0,     "max_tokens": 1000 } # 3. 对话（平衡） {     "temperature": 0.7,     "top_p": 0.9,     "max_tokens": 500 } # 4. 数据提取（精确） {     "temperature": 0.0,     "top_p": 1.0,     "max_tokens": 300 } # 5. 翻译（一致性） {     "temperature": 0.3,     "top_p": 1.0,     "max_tokens": 1000 }

10.6 Prompt 最佳实践

DO（应该做的）：

✓ 清晰明确地描述任务 ✓ 提供具体的示例（Few-Shot） ✓ 指定输出格式 ✓ 设置约束条件 ✓ 使用思维链处理复杂任务 ✓ 分解复杂任务为多个步骤

DON'T（不应该做的）：

✗ 模糊不清的指令 ✗ 过于冗长的提示（浪费 tokens） ✗ 假设模型知道上下文 ✗ 忽略模型的能力限制 ✗ 混合多个任务 ✗ 缺少输出格式要求

示例对比：

# ❌ 不好的 Prompt prompt = "帮我写个函数" # ✅ 好的 Prompt prompt = """ 你是一个 Python 编程专家。请帮我编写一个函数，具体要求如下： 任务：实现二叉树的中序遍历 输入： - 二叉树的根节点（TreeNode 类型） 输出： - 遍历结果的列表（List[int]） 约束： - 不使用递归 - 时间复杂度 O(n) - 空间复杂度 O(n) 示例： 输入: [1,null,2,3] 输出: [1,3,2] 请以以下格式返回： ```python def inorder_traversal(root):     # 你的代码     pass # 解释说明 ...

"""

📝 总结

核心要点

AI 层次：AI → ML → DL → Generative AI → Foundation Models → LLM
Transformer：革命性架构，Self-Attention 是核心
LLM 能力：理解、生成、学习、推理
关键流程：预训练 → 微调 → 推理
核心概念：Token、Embedding、Context Window、Prompt Engineering
应用广泛：NLP、CV、语音、推荐...

快速参考

核心公式 ├── AI = 让机器展现智能 ├── ML = 从数据学习 ├── DL = 多层神经网络 ├── Transformer = Self-Attention └── LLM = 超大规模语言模型 核心概念 ├── Token（词元）：文本的基本单位 ├── Embedding（嵌入）：词的向量表示 ├── Context Window（上下文窗口）：模型的"工作记忆" ├── Max Tokens（最大输出）：控制输出长度 ├── Stop Tokens（停止词）：精确控制输出结束 ├── Temperature（温度）：控制随机性 └── Top-p（核采样）：限制候选范围 关键技术 ├── Pre-training（预训练） ├── Fine-tuning（微调） ├── RAG（检索增强） ├── Prompt Engineering（提示工程） │   ├── Zero-Shot（零样本） │   ├── Few-Shot（少样本） │   ├── Chain-of-Thought（思维链） │   └── Prompt Chaining（链式提示） └── RLHF（人类反馈强化学习） 开发工具 ├── PyTorch（框架） ├── Transformers（库） ├── Ollama（本地运行） └── vLLM（高性能推理）