AI 基础概念全景指南

📖 写在前面

人工智能(AI)正在重塑我们的世界。从 ChatGPT 到自动驾驶,从医疗诊断到艺术创作,AI 无处不在。

但对于初学者来说,AI 领域充满了复杂的概念:机器学习、深度学习、神经网络、Transformer、LLM、AGI...

本文将以通俗易懂的方式,系统性地介绍 AI 的核心概念,帮助你建立完整的知识体系。


🎯 一、AI 层次结构

1.1 概念层次图

┌─────────────────────────────────────────┐ │           人工智能 (AI)                   │ │   让机器展现智能行为的技术总称            │ └─────────────────────────────────────────┘                     ↓ ┌─────────────────────────────────────────┐ │          机器学习 (ML)                    │ │   从数据中学习规律,无需显式编程          │ └─────────────────────────────────────────┘                     ↓ ┌─────────────────────────────────────────┐ │         深度学习 (DL)                     │ │   使用多层神经网络进行学习                │ └─────────────────────────────────────────┘                     ↓ ┌─────────────────────────────────────────┐ │       生成式 AI (Generative AI)           │ │   能够创造新内容(文本、图像、音频)       │ └─────────────────────────────────────────┘                     ↓ ┌─────────────────────────────────────────┐ │        基础模型 (Foundation Models)       │ │   在大规模数据上预训练的通用模型           │ └─────────────────────────────────────────┘                     ↓ ┌─────────────────────────────────────────┐ │      大语言模型 (LLM)                    │ │   专门处理文本的超大规模模型              │ └─────────────────────────────────────────┘

1.2 快速对比

概念

定义

典型应用

AI

模拟人类智能

所有智能系统

ML

机器学习

推荐、分类

DL

多层神经网络

图像识别、NLP

LLM

超大规模语言模型

ChatGPT、Claude

AGI

通用人工智能

尚未实现


🧠 二、核心概念详解

2.1 人工智能(AI)

定义:让机器模拟人类智能行为的技术总称。

三大流派

1. 符号主义(Symbolic AI)    └── 基于规则和逻辑推理    └── 专家系统、知识图谱 2. 连接主义(Connectionism)    └── 模拟人脑神经元    └── 神经网络、深度学习 3. 行为主义(Behaviorism)    └── 通过交互学习    └── 强化学习、进化算法

AI 的分类

类型

能力

例子

弱 AI (Narrow AI)

专注特定任务

AlphaGo、Siri、推荐系统

强 AI (General AI)

具备人类水平智能

AGI(尚未实现)

超 AI (Super AI)

超越人类智能

科幻作品中的 AI


2.2 机器学习(ML)

定义:让计算机从数据中学习规律,而不是通过显式编程。

核心三要素

# 机器学习的公式 模型 + 数据 + 优化算法 = 预测能力 # 示例:预测房价 模型 = 决策树 / 神经网络 / 线性回归 数据 = 历史房价数据(面积、位置、房龄) 算法 = 梯度下降 / 随机森林 结果 = 能够预测新房价

学习方式

1. 监督学习(Supervised Learning)    └── 有标签数据    └── 分类:垃圾邮件检测    └── 回归:房价预测 2. 无监督学习(Unsupervised Learning)    └── 无标签数据    └── 聚类:用户分群    └── 降维:数据压缩 3. 强化学习(Reinforcement Learning)    └── 通过奖励学习    └── 游戏 AI:AlphaGo    └── 机器人控制

2.3 神经网络(Neural Network)

核心思想:模拟人脑神经元的工作方式。

单个神经元

输入 → [权重] → [激活函数] → 输出 数学表达: y = f(Σ(wᵢ × xᵢ) + b) 其中: xᵢ = 输入 wᵢ = 权重(可学习参数) b = 偏置(bias) f = 激活函数(ReLU, Sigmoid, Tanh)

激活函数对比

激活函数

公式

特点

应用场景

Sigmoid

1/(1+e⁻ˣ)

输出 0-1

二分类(历史)

Tanh

(eˣ-e⁻ˣ)/(eˣ+e⁻ˣ)

输出 -1 到 1

RNN(历史)

ReLU

max(0,x)

解决梯度消失

当前主流
GELU

平滑版 ReLU

性能更好

Transformer

多层感知器(MLP)

输入层              隐藏层              输出层   [x₁] ──→         [h₁] ──→         [y₁]   [x₂] ──→   [w₁]  [h₂] ──→   [w₂]  [y₂]   [x₃] ──→         [h₃] ──→         [y₃]               ↓              ↓           前向传播        反向传播               (计算)        (学习)

2.4 深度学习(Deep Learning)

定义:使用多层神经网络进行学习的机器学习方法。

为什么需要"深度"?

层次抽象: 输入层  →  原始像素 第一层  →  边缘、线条 第二层  →  眼睛、鼻子 第三层  →  人脸 输出层  →  识别结果 每一层都在学习更高层次的特征抽象!

深度学习 vs 传统机器学习

维度

传统 ML

深度学习

特征工程

手动设计

自动学习
数据需求

小样本

大数据

计算资源

GPU 密集型
可解释性

低(黑盒)

表现上限

中等

极高

经典深度学习模型

# CNN(卷积神经网络)- 图像处理 Conv2D → ReLU → MaxPool → FC → Softmax └── 应用:图像分类、目标检测 # RNN(循环神经网络)- 序列数据 LSTM → GRU → Bidirectional └── 应用:语音识别、机器翻译 # Transformer - 注意力机制 Self-Attention → FFN → LayerNorm └── 应用:**GPT、BERT、Claude**

🚀 三、Transformer:革命性架构

3.1 核心思想

传统 RNN 的问题

序列处理:[A] [B] [C] [D] [E] [F] [G] [H]             ↓   ↓   ↓   ↓   ↓   ↓   ↓   ↓ RNN:      [→  →  →  →  →  →  →  →]  → 输出           ↑────────↑           距离远,信息丢失           难以并行(必须按顺序)

Transformer 的突破

Self-Attention:所有词同时关注所有词! [A] [B] [C] [D] [E] [F] [G] [H]   ↓    ↓    ↓    ↓    ↓    ↓    ↓    ↓   └────┴────┴────┴────┴────┴────┘               ↓        [并行处理!]               ↓        [全局上下文]

3.2 Self-Attention 机制

核心公式

# 注意力计算 Attention(Q, K, V) = softmax(QKᵀ / √dₖ) × V 其中: Q (Query)  = 查询向量 K (Key)    = 键向量 V (Value)  = 值向量 dₖ         = 缩放因子(防止梯度爆炸)

直观理解

查询示例: Q: "苹果" 在关注什么? K: ["苹果", "公司", "红色", "好吃", "水果"] V: [Tech, Color, Taste, Category] Attention("苹果", ...) = {     "苹果": 0.8,    # 高关注(同一词)     "公司": 0.6,    # 中等关注(可能是 Apple 公司)     "红色": 0.3,    # 低关注(颜色属性)     "好吃": 0.2,    # 低关注     "水果": 0.5,    # 中等关注(类别) } 结果:综合所有值的加权和

3.3 Transformer 结构

输入文本    ↓ [Embedding + Positional Encoding]    ↓ ┌─────────────────────────────────┐ │   Encoder × N(编码器)         │ │   ┌─────────────────────┐      │ │   │ Self-Attention       │      │ │   ├─────────────────────┤      │ │   │ Feed Forward Network │      │ │   └─────────────────────┘      │ └─────────────────────────────────┘    ↓ ┌─────────────────────────────────┐ │   Decoder × N(解码器)         │ │   ┌─────────────────────┐      │ │   │ Masked Self-Attn     │      │ │   ├─────────────────────┤      │ │   │ Encoder-Decoder Attn│      │ │   ├─────────────────────┤      │ │   │ Feed Forward Network │      │ │   └─────────────────────┘      │ └─────────────────────────────────┘    ↓ 输出概率

为什么 Transformer 如此成功?

  1. 并行化:可以同时处理所有位置
  2. 长距离依赖:任意两个词都可以直接交互
  3. 可扩展:通过增加层数和参数提升性能

💬 四、大语言模型(LLM)

4.1 定义

大语言模型(Large Language Model):基于 Transformer 架构,在海量文本数据上训练的超大规模神经网络。

"大"的含义

维度

数量级

对比

参数量

10亿 - 1万亿+

GPT-4: ~1.8T

训练数据

TB 级文本

整个互联网文本

模型大小

GB - TB 级

需要数千 GPU

训练成本

百万 - 千万美元

GPT-4 训练成本 ~$100M

4.2 核心能力

1. 自然语言理解(NLU)

输入:"今天天气真好" ↓ LLM 理解: - 情感:积极、愉悦 - 意图:陈述天气 - 上下文:可能想外出或聊天

2. 自然语言生成(NLG)

输入:"写一首关于春天的诗" ↓ LLM 生成: "春风拂柳绿丝长, 百花开满园中香。 燕子归来寻旧垒, 一片生机在远方。"

3. 上下文学习(In-Context Learning)

提示(Prompt): """ 5 + 3 = 8 7 + 2 = 9 9 + 4 = 13 6 + 8 = ? 答案:14 """ LLM 通过少量示例学会模式,无需重新训练!

4. 思维链(Chain of Thought)

问题:"小明有5个苹果,吃了2个,又买了3个,现在有几个?" 简单回答:6个 思维链: """ 初始:5个 吃了2个:5 - 2 = 3个 买了3个:3 + 3 = 6个 答案:6个 """ 思维链能显著提升复杂任务的准确性!

4.3 主流 LLM 对比

模型

公司

参数量

特点

GPT-4

OpenAI

~1.8T

多模态、代码能力强

Claude 3

Anthropic

不公开

长文本、安全

Gemini

Google

不公开

多模态、Google 生态

文心一言

百度

不公开

中文优化

通义千问

阿里

不公开

中文、开源


🔧 五、训练与推理

5.1 预训练(Pre-training)

目标:学习语言的通用知识。

# 预训练任务:预测下一个词 输入:"今天天气" 目标:"真" / "很" / "不错" / ... # 在海量文本上训练 数据源:网页、书籍、代码、论文 训练时间:数周到数月 硬件需求:数千张 GPU

预训练学到的能力

  • 语法规则
  • 世界知识
  • 推理能力
  • 编程能力
  • 多语言能力

5.2 微调(Fine-tuning)

目标:适应特定任务或领域。

# 基础模型(如 LLaMA) ↓ 微调数据(医疗、法律、金融) ↓ 领域专用模型

微调方式

  1. 全量微调:更新所有参数
  2. LoRA 微调:只更新少量参数
  3. Prompt 微调:不更新参数,只调整提示

5.3 推理(Inference)

定义:使用训练好的模型进行预测。

# 推理流程 输入文本 → Token化 → Embedding → Transformer → 概率分布 → 采样输出 # 性能指标 延迟(Latency):生成第一个 token 的时间 吞吐量(Throughput):每秒生成的 token 数

推理优化技术

  • 量化:FP16 → INT8(减少内存和计算)
  • KV Cache:缓存中间结果(加速生成)
  • Flash Attention:优化注意力计算
  • 投机采样:快速生成草稿,然后验证

📊 六、关键概念对比

6.1 参数规模演进

2017: Transformer   -  65M 参数 2018: BERT         -  340M 参数 2018: GPT-1        -  117M 参数 2019: GPT-2        -  1.5B 参数 2020: GPT-3        -  175B 参数 2023: GPT-4        -  ~1.8T 参数(推测) 2024: Claude 4     -  不公开(更大)

6.2 Token 词表

# Tokenization: 文本 → 数字序列 文本:"Hello, world!" Tokens: ["Hello", ",", "world", "!"] IDs:   [15496,   11,   995,    0] # 常见 Tokenizer GPT-2/3: Byte-Pair Encoding (BPE) BERT:   WordPiece LLaMA:  SentencePiece

为什么 Token 重要?

  • 输入/输出都基于 Token
  • Token 数量直接影响成本和速度
  • 中文 Token 化效率较低(1 个中文字 ≈ 2-3 tokens)

Token 处理流程

原始文本     ↓ [分词 Tokenizer]     ↓ Token 序列: ["我", "爱", "编程"]     ↓ [词表映射]     ↓ Token IDs:  [2341, 876, 5432]     ↓ [嵌入层 Embedding]     ↓ 向量表示:    [0.2, -0.5, 0.8, ...]

6.3 Embedding(嵌入)

定义:将离散的 Token ID 转换为连续的数值向量,使其能够捕捉语义信息。

# Token → 向量转换 Token ID: 2341     ↓ 查询嵌入表 (Embedding Table)     ↓ 向量: [0.23, -0.45, 0.67, 0.12, ..., 0.89] 维度: 通常为 768, 1024, 3072 等

完整 Embedding 组成(以 BERT 为例):

最终嵌入 = Token Embedding + Position Embedding + Segment Embedding ┌─────────────────────────────────────────┐ │  Token Embedding(词嵌入)              │ │  将 token ID 转换为语义向量             │ ├─────────────────────────────────────────┤ │  Position Embedding(位置嵌入)         │ │  标识 token 在序列中的位置              │ ├─────────────────────────────────────────┤ │  Segment Embedding(句子嵌入)          │ │  区分不同句子(如问答对)               │ └─────────────────────────────────────────┘

为什么需要 Embedding?

问题

传统方法 (One-Hot)

Embedding

向量维度

极高(词表大小)

固定低维(768/1024)

语义关系

无法捕捉

能捕捉相似性

计算效率

低(稀疏矩阵)

高(密集向量)

泛化能力

语义相似性示例

"猫" 的向量:  [0.8, 0.2, 0.9, ...] "狗" 的向量:  [0.7, 0.3, 0.8, ...]  ← 相似度高 "汽车"的向量: [-0.5, 0.9, 0.1, ...]  ← 相似度低 余弦相似度("猫", "狗") = 0.95 余弦相似度("猫", "汽车") = 0.12

主流 Embedding 模型

  • BERT: 768 维
  • GPT Embeddings: 768-12288 维(取决于模型大小)
  • text-embedding-ada-002: 1536 维
  • gemini-embedding-001: 3072 维

6.4 上下文窗口(Context Window)

定义:模型在生成新文本时可以回顾和参考的全部文本量,相当于模型的"工作记忆"。

# 模型能处理的最大文本长度(2024-2025最新数据) GPT-3:           2048 tokens GPT-4o/Turbo:    128k tokens GPT-4.1:         1,000,000 tokens Claude 3.5:      200k tokens Claude Sonnet 4: 1,000,000 tokens Gemini 1.5/2.0:  1,000,000 tokens Gemini 2.5 Pro:  1,048,576 tokens # 实际应用 128k tokens  ≈ 300页中文文档  ≈ 10万字 1M tokens    ≈ 2500页中文文档 ≈ 100万字

上下文窗口的工作原理

┌─────────────────────────────────────────┐ │         Context Window (128k)           │ ├─────────────────────────────────────────┤ │ 系统提示 (System Prompt)                │ │ ├─ 角色定义                             │ │ ├─ 行为准则                             │ │ └─ 任务描述                             │ ├─────────────────────────────────────────┤ │ 历史对话 (Conversation History)         │ │ ├─ 用户: 问题 1                         │ │ ├─ 助手: 回答 1                         │ │ ├─ 用户: 问题 2                         │ │ └─ 助手: 回答 2                         │ ├─────────────────────────────────────────┤ │ 当前输入 (Current Input)                │ │ └─ 用户: 新问题                         │ ├─────────────────────────────────────────┤ │ 生成输出 (Generation)                   │ │ └─ 助手: 新回答 (逐步生成)              │ └─────────────────────────────────────────┘ 重要: 输入 + 输出 ≤ 上下文窗口

上下文窗口的限制与挑战

挑战

说明

解决方案

遗忘问题

超出窗口的历史会被丢弃

RAG(检索增强生成)

质量下降

长上下文中信息密度降低

滑动窗口、重排序

成本增加

更长上下文 = 更高成本

精简提示、选择性保留

推理延迟

长序列计算复杂度高

KV Cache、Flash Attention

上下文压缩技术

# 1. 滑动窗口(保留最近的对话) 历史对话 = [对话[-10:]]  # 只保留最后10轮 # 2. 摘要压缩(将旧对话压缩为摘要) 历史摘要 = summarize(旧对话) 新上下文 = 历史摘要 + 最近对话 # 3. RAG(检索相关内容) 相关内容 = retrieve(知识库, 当前问题) 上下文 = 相关内容 + 当前问题

6.5 Max Tokens(最大输出长度)

定义:控制模型单次生成的最大 Token 数量。

# API 调用示例 response = openai.ChatCompletion.create(     model="gpt-4",     messages=messages,     max_tokens=1000  # 最多生成 1000 个 tokens ) # 影响因素 max_tokens = 1000     # 输出约 750 个汉字(中文) max_tokens = 2000     # 输出约 1500 个汉字 max_tokens = 4096     # 输出约 3000 个汉字

Max Tokens vs Context Window

Context Window = 输入 tokens + 输出 tokens                   ↑              ↑               (用户发送)     (Max Tokens) 示例: Context Window = 128k 输入: 100k tokens 最大输出: 28k tokens (受 max_tokens 限制)

如何选择 Max Tokens

场景

推荐 Max Tokens

简短回答

256-512

中等回答

512-1024

长篇文章

1024-2048

代码生成

1024-4096

文档翻译

2048-4096

6.6 Stop Tokens(停止词)

定义:指定一个或多个字符串,当模型生成内容遇到这些字符串时自动停止。

# API 调用示例 response = openai.ChatCompletion.create(     model="gpt-4",     messages=messages,     stop=["\n\n", "END", "###"]  # 遇到这些字符串时停止 ) # 应用场景 1. 生成固定格式数据    stop = "}"# 生成 JSON 时在 } 处停止 2. 控制输出长度    stop = "\n\n"# 段落结束即停止 3. 多轮对话分割    stop = "USER:"# 用户输入时停止

Stop vs Max Tokens

维度

Stop Tokens

Max Tokens

停止条件

遇到指定字符串

达到 Token 数量

控制精度

高(精确匹配)

中(估计值)

灵活性

需要预知输出

通用

应用场景

结构化输出

通用场景


🎯 七、AI 生态系统

7.1 开源 vs 闭源

类型

代表模型

特点

闭源 API

GPT-4, Claude

性能最强,按需付费

开源权重

LLaMA, Mistral

可本地部署,可控性强

开放 API

Gemini, 文心

免费额度,生态丰富

7.2 技术栈

# AI 开发技术栈 ├── 框架 │   ├── PyTorch  # 学术研究主流 │   ├── TensorFlow  # 工业界广泛使用 │   └── JAX  # 高性能计算 ├── 库 │   ├── Transformers (Hugging Face)  # 模型库 │   ├── LangChain  # 应用框架 │   └── LlamaIndex  # 数据框架 └── 工具     ├── Ollama  # 本地运行     ├── vLLM  # 高性能推理     └── TensorRT-LLM  # NVIDIA 优化

7.3 开发流程

1. 数据准备    └── 收集、清洗、标注 2. 模型选择    └── 开源模型 vs API 服务 3. 提示工程    └── 设计有效的 Prompt 4. 微调(可选)    └── LoRA, QLoRA 5. 评估    └── 准确性、效率、成本 6. 部署    └── 云端、边缘设备

🌐 八、实际应用

8.1 应用领域

自然语言处理 ├── 聊天机器人 ├── 机器翻译 ├── 文本摘要 └── 情感分析 计算机视觉 ├── 图像分类 ├── 目标检测 ├── 图像生成 └── 视频理解 语音处理 ├── 语音识别 ├── 语音合成 └── 声音克隆 推荐系统 ├── 电商推荐 ├── 视频推荐 └── 广告投放

8.2 典型案例

1. ChatGPT(对话系统)

用户:帮我写一个 Python 函数计算斐波那契数列 ChatGPT: def fibonacci(n):     if n <= 1:         return n     return fibonacci(n-1) + fibonacci(n-2) # 进一步优化...

2. GitHub Copilot(代码助手)

# 开发者写注释 # 从数据库获取用户列表,按年龄排序 # AI 自动补全 users = db.query(User).order_by(User.age).all()

3. Midjourney(图像生成)

提示词: "一只可爱的猫咪, 坐在窗台上, 阳光透过窗户, 水彩画风格" ↓ AI 生成精美图片

🔮 九、未来趋势

9.1 技术趋势

1. 模型规模    └── 从"更大"到"更高效"    └── 稀疏激活、混合专家(MoE) 2. 多模态    └── 文本 + 图像 + 音频 + 视频    └── GPT-4V, Gemini Ultra 3. 智能体(Agent)    └── 从"对话"到"行动"    └── AutoGPT, BabyAGI 4. 具身智能    └── AI + 机器人    └── 人形机器人、自动驾驶

9.2 挑战

1. 幻觉(Hallucination)

LLM 可能"自信地胡说八道": 用户:"林黛玉是谁? LLM:"《水浒传》中的女英雄..." 问题:如何确保准确性? 解决:RAG(检索增强生成)

2. 安全与对齐

挑战:如何让 AI 符合人类价值观? 方法: - RLHF(人类反馈强化学习) - Constitutional AI(宪法式 AI) - Red Teaming(红队测试)

3. 计算资源

训练成本:数百万美元 推理成本:每次请求 $0.001 - $0.1 环境代价:大量电力消耗 解决方案: - 模型蒸馏 - 量化压缩 - 高效硬件(TPU、NPU)

🎨 十、Prompt Engineering 与参数控制

10.1 Prompt(提示词)基础

定义:发送给 LLM 的文本指令,用于引导模型生成期望的输出。

Prompt 的组成结构

┌─────────────────────────────────────────┐ │           完整 Prompt                    │ ├─────────────────────────────────────────┤ │ 1. System Message(系统消息)            │ │    "你是一个专业的 Python 编程助手..."   │ ├─────────────────────────────────────────┤ │ 2. Context(上下文)                     │ │    "用户正在学习数据结构..."             │ ├─────────────────────────────────────────┤ │ 3. Task Description(任务描述)          │ │    "请帮我写一个二叉树遍历函数..."       │ ├─────────────────────────────────────────┤ │ 4. Examples(示例,可选)                │ │    "输入: [1,2,3] → 输出: [1,2,3]"      │ ├─────────────────────────────────────────┤ │ 5. Input Format(输入格式)              │ │    "输入是一个整数列表..."               │ ├─────────────────────────────────────────┤ │ 6. Output Format(输出格式)             │ │    "请以 JSON 格式返回结果..."           │ ├─────────────────────────────────────────┤ │ 7. Constraints(约束条件)                │ │    "不要使用递归,时间复杂度 O(n)"       │ └─────────────────────────────────────────┘

10.2 Prompt Engineering 核心技巧

1. Zero-Shot(零样本学习)

# 不提供示例,直接指令 prompt = """ 将以下文本翻译成英文: 人工智能正在改变世界。 """ # 优点:简单快速 # 缺点:复杂任务准确率较低

2. Few-Shot(少样本学习)

# 提供示例引导模型 prompt = """ 示例 1: 输入: 我很高兴 输出: 积极 示例 2: 输入: 今天真倒霉 输出: 消极 示例 3: 输入: 这个产品太棒了 输出: 积极 现在请分析: 输入: 服务态度很差 输出: """ # 优点: 提升准确率,明确输出格式 # 缺点: 消耗更多 tokens

3. Chain-of-Thought (CoT) - 思维链

# 引导模型展示推理过程 prompt = """ 问题: 小明有 5 个苹果,吃了 2 个,又买了 3 个,现在有几个苹果? 让我们一步步思考: 1. 小明最初有 5 个苹果 2. 吃了 2 个,剩下 5 - 2 = 3 个 3. 又买了 3 个,现在有 3 + 3 = 6 个 答案: 6 个 现在请解决: 小红有 10 支铅笔,送给同学 3 支,又买了 5 支,现在有几支? """ # 优点: 显著提升复杂推理任务准确率 # 应用: 数学、逻辑、代码推理

4. Prompt Chaining(链式提示)

# 将复杂任务分解为多个步骤 # Step 1: 信息提取 prompt1 = "从以下文本中提取所有日期..." # Step 2: 信息整理 prompt2 = "将提取的日期按时间顺序排列..." # Step 3: 生成报告 prompt3 = "根据排序后的日期生成时间线报告..." # 优点: 处理复杂任务,提高准确性 # 缺点: 多次 API 调用,成本增加

5. Self-Consistency(自洽性)

# 多次采样,选择最一致的答案 for i in range(5):     answer = model.generate(prompt, temperature=0.7)     answers.append(answer) # 投票选择最常见答案 final_answer = most_common(answers) # 优点: 提升推理可靠性 # 应用: 数学、逻辑推理任务

10.3 Temperature(温度参数)

定义:控制模型输出的随机性和创造性。

response = openai.ChatCompletion.create(     model="gpt-4",     messages=messages,     temperature=0.7  # 0.0 - 2.0 )

Temperature 对输出的影响

Temperature

特点

输出风格

适用场景

0.0 - 0.3

低随机性

确定性、保守、一致

代码生成、数据提取、问答

0.4 - 0.7

中等随机性

平衡、自然

对话、写作、翻译

0.8 - 1.0

高随机性

创造性、多样

创意写作、头脑风暴

1.0 - 2.0

极高随机性

不可预测、可能混乱

实验性、艺术创作

直观示例

# Temperature = 0.1(低) Prompt: "讲一个关于猫的故事" 输出: "有一只小猫,它喜欢玩毛线球。有一天..." # Temperature = 1.0(高) Prompt: "讲一个关于猫的故事" 输出: "在2077年的霓虹城市中,一只名为'闪电'的赛博猫..." # Temperature = 0.1(重复调用) 输出1: "Hello, world!" 输出2: "Hello, world!" 输出3: "Hello, world!" # Temperature = 1.0(重复调用) 输出1: "Hello, world!" 输出2: "Hi there!" 输出3: "Greetings, friend!"

如何选择 Temperature

# 代码生成 - 低温度 generate_code(temperature=0.1) # 创意写作 - 高温度 write_story(temperature=0.9) # 翻译 - 低温度 translate(text, temperature=0.2) # 头脑风暴 - 高温度 brainstorm(ideas, temperature=1.0) # 对话 - 中等温度 chat(temperature=0.7)

10.4 Top-p (Nucleus Sampling)

定义:从累积概率达到 p 的最小 token 集合中采样。

response = openai.ChatCompletion.create(     model="gpt-4",     messages=messages,     top_p=0.9  # 0.0 - 1.0 )

Top-p 工作原理

Token 概率分布: "的": 0.30 "是": 0.25 "在": 0.20 "了": 0.10 "我":  0.08 "你":  0.04 "他":  0.02 "她":  0.01 Top-p = 0.5: → 选择 ["的", "是"] (累积概率 0.30 + 0.25 = 0.55 ≥ 0.5) → 从这两个 token 中随机采样 Top-p = 0.9: → 选择 ["的", "是", "在", "了", "我"] (累积概率 0.93 ≥ 0.9) → 从这五个 token 中随机采样 Top-p = 1.0: → 从所有 token 中采样(等同于标准采样)

Top-p vs Temperature

维度

Temperature

Top-p

作用

调整概率分布形状

限制候选 token 范围

值越大

越随机

越多候选 token

常用值

0.0 - 1.0

0.9 - 1.0

推荐设置

二选一,通常不用同时调整

10.5 参数组合建议

常用参数配置

# 1. 代码生成(确定性) {     "temperature": 0.1,     "top_p": 1.0,     "max_tokens": 2000 } # 2. 创意写作(创造性) {     "temperature": 0.9,     "top_p": 1.0,     "max_tokens": 1000 } # 3. 对话(平衡) {     "temperature": 0.7,     "top_p": 0.9,     "max_tokens": 500 } # 4. 数据提取(精确) {     "temperature": 0.0,     "top_p": 1.0,     "max_tokens": 300 } # 5. 翻译(一致性) {     "temperature": 0.3,     "top_p": 1.0,     "max_tokens": 1000 }

10.6 Prompt 最佳实践

DO(应该做的)

✓ 清晰明确地描述任务 ✓ 提供具体的示例(Few-Shot) ✓ 指定输出格式 ✓ 设置约束条件 ✓ 使用思维链处理复杂任务 ✓ 分解复杂任务为多个步骤

DON'T(不应该做的)

✗ 模糊不清的指令 ✗ 过于冗长的提示(浪费 tokens) ✗ 假设模型知道上下文 ✗ 忽略模型的能力限制 ✗ 混合多个任务 ✗ 缺少输出格式要求

示例对比

# ❌ 不好的 Prompt prompt = "帮我写个函数" # ✅ 好的 Prompt prompt = """ 你是一个 Python 编程专家。请帮我编写一个函数,具体要求如下: 任务:实现二叉树的中序遍历 输入: - 二叉树的根节点(TreeNode 类型) 输出: - 遍历结果的列表(List[int]) 约束: - 不使用递归 - 时间复杂度 O(n) - 空间复杂度 O(n) 示例: 输入: [1,null,2,3] 输出: [1,3,2] 请以以下格式返回: ```python def inorder_traversal(root):     # 你的代码     pass # 解释说明 ...

"""


📝 总结

核心要点

  1. AI 层次:AI → ML → DL → Generative AI → Foundation Models → LLM
  2. Transformer:革命性架构,Self-Attention 是核心
  3. LLM 能力:理解、生成、学习、推理
  4. 关键流程:预训练 → 微调 → 推理
  5. 核心概念:Token、Embedding、Context Window、Prompt Engineering
  6. 应用广泛:NLP、CV、语音、推荐...

快速参考

核心公式 ├── AI = 让机器展现智能 ├── ML = 从数据学习 ├── DL = 多层神经网络 ├── Transformer = Self-Attention └── LLM = 超大规模语言模型 核心概念 ├── Token(词元):文本的基本单位 ├── Embedding(嵌入):词的向量表示 ├── Context Window(上下文窗口):模型的"工作记忆" ├── Max Tokens(最大输出):控制输出长度 ├── Stop Tokens(停止词):精确控制输出结束 ├── Temperature(温度):控制随机性 └── Top-p(核采样):限制候选范围 关键技术 ├── Pre-training(预训练) ├── Fine-tuning(微调) ├── RAG(检索增强) ├── Prompt Engineering(提示工程) │   ├── Zero-Shot(零样本) │   ├── Few-Shot(少样本) │   ├── Chain-of-Thought(思维链) │   └── Prompt Chaining(链式提示) └── RLHF(人类反馈强化学习) 开发工具 ├── PyTorch(框架) ├── Transformers(库) ├── Ollama(本地运行) └── vLLM(高性能推理)

Read more

人形机器人:百万亿美元赛道的终极逻辑从“万物皆可机器人化”到“人形机器人是终极通用平台”

人形机器人:百万亿美元赛道的终极逻辑从“万物皆可机器人化”到“人形机器人是终极通用平台”

人形机器人:百万亿美元赛道的终极逻辑 从“万物皆可机器人化”到“人形机器人是终极通用平台” 一、用户洞察的深刻性:为什么“百万亿美元”不是夸张 “未来汽车也可以发展成为人形机器人控制的智能汽车,可以说现有的一切工业制造可以人形机器人化,因此人形机器人是百万亿美元的赛道。” 这个洞察触及了人形机器人产业的终极本质——它不是单一产品,而是重塑一切物理世界交互方式的通用平台。 让我们用数字说话: 可被“人形机器人化”的领域当前全球市场规模人形机器人化后的潜在价值汽车产业3万亿美元汽车成为“人形机器人的移动座舱”工业制造15万亿美元工厂成为“人形机器人集群的协作网络”商业服务10万亿美元商场、酒店、餐厅成为“人形机器人服务场景”家庭经济20万亿美元家庭成为“人形机器人的生活空间”医疗康养8万亿美元医院成为“人形机器人辅助诊疗平台”特种作业5万亿美元危险环境成为“人形机器人专属作业区”教育科研4万亿美元实验室、教室成为“人形机器人教学空间”农业矿业6万亿美元田间、矿井成为“人形机器人作业场”物流运输7万亿美元仓库、港口成为“人形机器人调度中心”国防安保2万亿美元战场、边境成为“

安卓手机安装Termux+AstrBot+NapCat搭建QQ个人机器人【非官方】(简易版)

安卓手机安装Termux+AstrBot+NapCat搭建QQ个人机器人【非官方】(简易版)

前言        好久不见,亲爱的友友们,这次我来了!这次我学会了用旧安卓手机安装termux软件搭建了一个AstrBotQQ机器人(大模型可能跑不了),我使用的旧安卓手机是vivoY31s标准版,手机型号有点久,到时能用就行了。其实方法都通用差不多。 目录 目录 前言 目录 一、简介 1.Termux 2.AstrBot 3.NapCat  二、步骤 1. 安装Termux 2. 更新系统包打开 Termux,依次执行以下命令,更新软件源并安装基础工具。 换源 (可选) 3. 申请存储权限 正式部署 安装 proot-distro 及 其他必须组件 登录 Ubuntu环境 添加第三方PPA 安装 Python 克隆 AstrBot 仓库 运行 AstrBot

机器人十年演进

机器人产业十年演进(2015-2025) 2015-2025年,是全球机器人产业完成从工业场景专用机械执行设备,到全场景通用具身智能终端、从海外巨头全链路技术垄断,到国产厂商全栈自主可控全球领跑、从固定示教的重复劳动工具,到自然语言驱动的类人智能伙伴跨越式发展的黄金十年。 这十年,机器人产业与新能源制造、AI大模型、自动驾驶技术的爆发深度同频,核心边界实现了三次根本性跃迁:从工业机器人单一场景主导,拓展到协作、服务、特种、人形机器人全品类爆发;从机械执行的专用设备,进化为多模态感知+AI决策+全身运动控制的智能终端;从汽车、3C产线的工业配套,渗透到家庭、商业、医疗、应急、航空航天等全场景,成为新一轮科技革命和产业变革的核心抓手,更是中国制造业换道超车、实现高端制造自主可控的核心赛道。 这十年,机器人产业完成了**「工业机器人国产替代启蒙期→协作机器人与服务机器人规模化成长期→AI大模型驱动的人形机器人爆发期→具身智能通用机器人量产普及期」**四次核心范式跃迁;国产工业机器人市场份额从不足30%提升至70%以上;核心零部件国产化率从不足5%提升至80%以上;产业规模从不足500亿

配置钉钉龙虾OpenClaw机器人调用OpenMetadata

配置钉钉龙虾OpenClaw机器人调用OpenMetadata

目录 * 一、前言 * 1️⃣钉钉(DingTalk) * 2️⃣OpenClaw * 3️⃣OpenMetadata * 4️⃣MCP(Model Context Protocol) * 二、安装OpenClaw * 三、配置OpenClaw钉钉机器人 * 四、调用OpenMetadata MCP 一、前言 先介绍下这四个工具/协议的定位与核心能力,本文将从零开始配置。 1️⃣钉钉(DingTalk) 阿里巴巴旗下的企业协作平台,2014年上线,是中国市场份额最大的企业即时通讯与办公套件之一。 核心能力包括:即时消息与视频会议、考勤打卡与审批流、企业通讯录、低代码应用搭建(宜搭)、以及近年来整合的 AI 助理功能。它更像一个"企业操作系统",把 HR、OA、协同文档、