一文彻底搞懂AI中的Token：用最直观的比喻让你秒懂

优质文章学习记录

06 Apr 2026 — 13 min read

本文用乐高积木、切菜、工作台等生活化比喻，帮你彻底理解AI大模型中Token的概念，包括什么是Token、为什么需要Token、Token如何影响费用和性能，以及实际的代码演示。

一、Token到底是什么？

1.1 最简单的定义

Token是AI处理文本的最小单位，就像：

乐高模型由积木块组成
句子由词语组成
AI眼中的文本由Token组成

你看到的: "我喜欢机器学习" AI看到的: [25105, 46654, 33003, 30528] ← Token ID（数字） AI不认识"文字"，只认识"数字" Token就是文字到数字的桥梁

1.2 为什么不直接用字符或单词？

三种切分方式对比： 原文: "Transformer模型很强大" 方式1 - 按字符切: ["T","r","a","n","s","f","o","r","m","e","r","模","型","很","强","大"] 问题: 太碎了！16个单位，效率低 方式2 - 按单词切: ["Transformer", "模型", "很", "强大"] 问题: 词表太大！世界上有几百万个词 方式3 - 按子词切(Token): ✓ ["Trans", "former", "模型", "很", "强大"] 优点: 平衡了效率和词表大小

二、五个比喻彻底理解Token

2.1 比喻一：乐高积木

┌─────────────────────────────────────────────────────────────┐ │ Token = 乐高积木 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 一段文本 = 一个乐高模型 │ │ Token = 组成模型的积木块 │ │ │ │ "人工智能改变世界" │ │ ↓ 拆解 │ │ ┌────┐ ┌────┐ ┌────┐ ┌────┐ │ │ │人工│ │智能│ │改变│ │世界│ = 4块积木(4个tokens) │ │ └────┘ └────┘ └────┘ └────┘ │ │ │ │ AI的工作： │ │ 1. 看懂每块积木是什么 │ │ 2. 理解积木之间的关系 │ │ 3. 根据已有积木，预测下一块应该是什么 │ │ │ └─────────────────────────────────────────────────────────────┘

2.2 比喻二：切菜

┌─────────────────────────────────────────────────────────────┐ │ Token化 = 切菜 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 原材料(文本): "ChatGPT是很厉害的AI助手" │ │ │ │ 切法1 - 切太碎(按字符): │ │ [C][h][a][t][G][P][T][是][很][厉][害]... │ │ → 块太多，炒菜费时间 │ │ │ │ 切法2 - 块太大(按句子): │ │ [ChatGPT是很厉害的AI助手] │ │ → 没法精细处理 │ │ │ │ 切法3 - 大小适中(Token): ✓ │ │ [Chat][GPT][是][很][厉害][的][AI][助手] │ │ → 既高效又能精细处理 │ │ │ │ Token化算法(BPE)的智慧： │ │ • 常见词保持完整: "的"、"是"、"AI" │ │ • 罕见词拆开: "Transformer" → "Trans" + "former" │ │ │ └─────────────────────────────────────────────────────────────┘

2.3 比喻三：工作台（上下文窗口）

┌─────────────────────────────────────────────────────────────┐ │ 上下文窗口 = AI的工作台 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ AI有一张桌子，最多能放N个积木(tokens) │ │ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ AI的工作台 │ │ │ │ ┌──────────────────────────────────────────────┐ │ │ │ │ │ [系统提示] [历史对话] [你的问题] [AI的回答] │ │ │ │ │ │ │ │ │ │ │ │ ←────── 最多128K个tokens ──────→ │ │ │ │ │ └──────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ │ 不同模型的"桌子大小"： │ │ • GPT-3.5: 4K tokens (小桌子) │ │ • GPT-4: 8K-128K (中大桌子) │ │ • Claude: 100K-200K (超大桌子) │ │ │ │ 桌子放满了会怎样？ │ │ → 旧的积木被推下去 → AI"忘记"早期对话 │ │ │ └─────────────────────────────────────────────────────────────┘

2.4 比喻四：出租车计价器

┌─────────────────────────────────────────────────────────────┐ │ Token = 计价单位 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 就像出租车按"公里"计费，AI按"Token"计费 │ │ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 各种服务的计价单位 │ │ │ ├─────────────────────────────────────────────────────┤ │ │ │ 出租车 │ 按公里 │ ¥2.5/公里 │ │ │ │ 手机流量 │ 按MB │ ¥0.1/MB │ │ │ │ 云服务器 │ 按小时 │ ¥0.5/小时 │ │ │ │ AI API │ 按Token │ $0.01/1K tokens │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ │ 实际价格参考(2024): │ │ • GPT-4: 输入$0.03/1K, 输出$0.06/1K │ │ • GPT-3.5: 输入$0.0005/1K, 输出$0.0015/1K │ │ • Claude: 输入$0.008/1K, 输出$0.024/1K │ │ │ │ 省钱技巧： │ │ • 精简prompt，去掉废话 │ │ • 用更便宜的模型处理简单任务 │ │ • 缓存常用回答 │ │ │ └─────────────────────────────────────────────────────────────┘

2.5 比喻五：字典编号

┌─────────────────────────────────────────────────────────────┐ │ Token ID = 字典编号 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ AI有一本"词典"，每个Token都有唯一编号 │ │ │ │ ┌────────────────────────────────────┐ │ │ │ AI的词典 (词表) │ │ │ ├────────────────────────────────────┤ │ │ │ 编号 │ Token │ │ │ ├────────────────────────────────────┤ │ │ │ 0 │ <PAD> │ │ │ │ 1 │ <UNK> │ │ │ │ ... │ ... │ │ │ │ 464 │ "the" │ │ │ │ 1917 │ "hello" │ │ │ │ 15496 │ "Hello" │ │ │ │ 50256 │ "人工" │ │ │ │ ... │ ... │ │ │ └────────────────────────────────────┘ │ │ │ │ 词表大小: │ │ • GPT-2: 50,257 个token │ │ • GPT-4: 100,000+ 个token │ │ • LLaMA: 32,000 个token │ │ │ │ 注意: "Hello" 和 "hello" 是不同的token！ │ │ │ └─────────────────────────────────────────────────────────────┘

三、Token化的工作原理

3.1 BPE算法：最常用的Token化方法

BPE (Byte Pair Encoding) 是目前最流行的Token化算法。

BPE算法思想：从字符开始，不断合并最常见的相邻对 初始词表: [a, b, c, d, ..., z, A, B, ..., Z, 0-9, 标点...] 训练语料: "low lower lowest" Step 1: 统计相邻字符对频率 "lo"出现3次，"ow"出现3次，"er"出现1次... Step 2: 合并最高频的对 "lo" → 新token 词表: [..., "lo"] Step 3: 继续合并 "low" → 新token 词表: [..., "lo", "low"] Step 4: 继续合并 "er", "est"... 最终词表: [..., "lo", "low", "lower", "low", "est", ...]

3.2 不同语言的Token效率

┌─────────────────────────────────────────────────────────────┐ │ 不同语言的Token效率对比 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 同样的意思，不同语言消耗的token数量不同： │ │ │ │ 英语: "Hello, how are you?" │ │ → ["Hello", ",", " how", " are", " you", "?"] │ │ → 6 tokens │ │ │ │ 中文: "你好，你怎么样？" │ │ → ["你", "好", "，", "你", "怎", "么", "样", "？"] │ │ → 8 tokens (比英文多！) │ │ │ │ 原因： │ │ • 大模型主要用英文语料训练 │ │ • 英文词汇在词表中更完整 │ │ • 中文需要拆成更小的单位 │ │ │ │ 实际影响： │ │ • 中文用户API费用更高 │ │ • 同样的上下文窗口，中文能说的话更少 │ │ │ └─────────────────────────────────────────────────────────────┘

3.3 特殊Token

┌─────────────────────────────────────────────────────────────┐ │ 特殊Token │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 除了普通文字，还有一些"特殊积木"： │ │ │ │ ┌─────────────┬────────────────────────────────────────┐ │ │ │ Token │ 用途 │ │ │ ├─────────────┼────────────────────────────────────────┤ │ │ │ <BOS> │ 句子开始 (Begin of Sentence) │ │ │ │ <EOS> │ 句子结束 (End of Sentence) │ │ │ │ <PAD> │ 填充 (Padding)，凑齐长度 │ │ │ │ <UNK> │ 未知词 (Unknown) │ │ │ │ <SEP> │ 分隔符，分开不同部分 │ │ │ │ <MASK> │ 遮盖，用于BERT训练 │ │ │ │ <|im_start|>│ 对话开始标记(ChatGPT) │ │ │ │ <|im_end|> │ 对话结束标记(ChatGPT) │ │ │ └─────────────┴────────────────────────────────────────┘ │ │ │ │ 例如ChatGPT的实际输入： │ │ <|im_start|>system │ │ 你是一个有帮助的助手<|im_end|> │ │ <|im_start|>user │ │ 你好<|im_end|> │ │ <|im_start|>assistant │ │ │ └─────────────────────────────────────────────────────────────┘

四、代码实战：亲手操作Token

4.1 使用tiktoken（OpenAI官方）

# pip install tiktokenimport tiktoken # 获取GPT-4的编码器 enc = tiktoken.get_encoding("cl100k_base")# ============ 基础用法 ============ text ="Hello, how are you today?"# 编码：文本 → Token IDs token_ids = enc.encode(text)print(f"原文: {text}")print(f"Token IDs: {token_ids}")print(f"Token数量: {len(token_ids)}")# 解码：Token IDs → 文本 decoded = enc.decode(token_ids)print(f"解码回来: {decoded}")# 输出:# 原文: Hello, how are you today?# Token IDs: [9906, 11, 1268, 527, 499, 3432, 30]# Token数量: 7# 解码回来: Hello, how are you today?

4.2 查看每个Token对应的文本

import tiktoken enc = tiktoken.get_encoding("cl100k_base")defshow_tokens(text):"""可视化显示文本的token分解""" token_ids = enc.encode(text)print(f"原文: {text}")print(f"Token数量: {len(token_ids)}")print(f"\n详细分解:")print("-"*50)for i, token_id inenumerate(token_ids): token_text = enc.decode([token_id])# 显示不可见字符 display_text =repr(token_text)print(f" Token {i+1}: ID={token_id:>6} → {display_text}")print("-"*50)# 测试英文 show_tokens("Hello, World!")# 测试中文 show_tokens("你好，世界！")# 测试代码 show_tokens("def hello():\n print('Hi')")

输出示例：

原文: Hello, World! Token数量: 4 详细分解: -------------------------------------------------- Token 1: ID= 9906 → 'Hello' Token 2: ID= 11 → ',' Token 3: ID= 4435 → ' World' Token 4: ID= 0 → '!' -------------------------------------------------- 原文: 你好，世界！ Token数量: 6 详细分解: -------------------------------------------------- Token 1: ID= 57668 → '你' Token 2: ID= 53901 → '好' Token 3: ID= 3922 → '，' Token 4: ID= 99489 → '世' Token 5: ID= 41101 → '界' Token 6: ID= 6447 → '！' --------------------------------------------------

4.3 计算API费用

import tiktoken defestimate_cost(text, model="gpt-4"):"""估算API调用费用"""# 价格表 (每1K tokens, 美元) prices ={"gpt-4":{"input":0.03,"output":0.06},"gpt-4-turbo":{"input":0.01,"output":0.03},"gpt-3.5-turbo":{"input":0.0005,"output":0.0015},} enc = tiktoken.get_encoding("cl100k_base") token_count =len(enc.encode(text)) price = prices.get(model, prices["gpt-4"]) input_cost =(token_count /1000)* price["input"]print(f"文本长度: {len(text)} 字符")print(f"Token数量: {token_count}")print(f"模型: {model}")print(f"预估输入费用: ${input_cost:.6f}")# 假设输出是输入的1.5倍 estimated_output =int(token_count *1.5) output_cost =(estimated_output /1000)* price["output"] total_cost = input_cost + output_cost print(f"预估输出tokens: {estimated_output}")print(f"预估输出费用: ${output_cost:.6f}")print(f"预估总费用: ${total_cost:.6f}")return token_count, total_cost # 测试 text =""" 请帮我写一篇关于人工智能发展历史的文章， 包括以下几个阶段： 1. 早期探索（1950s-1970s） 2. 专家系统时代（1980s） 3. 机器学习兴起（1990s-2000s） 4. 深度学习革命（2010s至今） 每个阶段请详细说明主要技术突破和代表性成果。 """ estimate_cost(text,"gpt-4") estimate_cost(text,"gpt-3.5-turbo")

4.4 对比不同语言的Token效率

import tiktoken defcompare_languages():"""对比不同语言的token效率""" enc = tiktoken.get_encoding("cl100k_base")# 相同意思的不同语言表达 texts ={"English":"Artificial intelligence is changing the world. ""It can help us solve complex problems.","中文":"人工智能正在改变世界。它可以帮助我们解决复杂的问题。","日本語":"人工知能は世界を変えています。複雑な問題を解決するのに役立ちます。","한국어":"인공지능이 세상을 바꾸고 있습니다. 복잡한 문제를 해결하는 데 도움이 됩니다.","Español":"La inteligencia artificial está cambiando el mundo. ""Puede ayudarnos a resolver problemas complejos.",}print("="*60)print("不同语言的Token效率对比")print("="*60) results =[]for lang, text in texts.items(): tokens = enc.encode(text) char_count =len(text) token_count =len(tokens) ratio = char_count / token_count results.append({'lang': lang,'chars': char_count,'tokens': token_count,'ratio': ratio })print(f"\n{lang}:")print(f" 字符数: {char_count}")print(f" Token数: {token_count}")print(f" 字符/Token比: {ratio:.2f}")print("\n"+"="*60)print("结论: 英文和西班牙文效率最高，中日韩文效率较低")print("="*60) compare_languages()

4.5 使用Hugging Face Tokenizer

# pip install transformersfrom transformers import AutoTokenizer # 加载不同模型的tokenizerdefcompare_tokenizers():"""对比不同模型的tokenizer""" text ="Hello, I love machine learning!" tokenizers ={"BERT":"bert-base-uncased","GPT-2":"gpt2","LLaMA":"meta-llama/Llama-2-7b-hf",# 需要申请权限"ChatGLM":"THUDM/chatglm-6b",}print(f"原文: {text}\n")for name, model_name in tokenizers.items():try: tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) tokens = tokenizer.tokenize(text) token_ids = tokenizer.encode(text)print(f"{name} ({model_name}):")print(f" Tokens: {tokens}")print(f" Token IDs: {token_ids}")print(f" 数量: {len(token_ids)}\n")except Exception as e:print(f"{name}: 加载失败 - {e}\n")# 简化版：只用GPT-2演示defsimple_hf_demo():from transformers import GPT2Tokenizer tokenizer = GPT2Tokenizer.from_pretrained("gpt2") text ="The quick brown fox jumps over the lazy dog."# 编码 tokens = tokenizer.tokenize(text) token_ids = tokenizer.encode(text)print(f"原文: {text}")print(f"Tokens: {tokens}")print(f"Token IDs: {token_ids}")# 解码 decoded = tokenizer.decode(token_ids)print(f"解码: {decoded}") simple_hf_demo()

五、Token的实际影响

5.1 对费用的影响

┌─────────────────────────────────────────────────────────────┐ │ Token数量直接影响费用 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 场景: 每天处理1000个客服对话，每个对话约500 tokens │ │ │ │ 日消耗: 1000 × 500 = 500,000 tokens │ │ 月消耗: 500,000 × 30 = 15,000,000 tokens (15M) │ │ │ │ 月费用估算: │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ GPT-4: 15M × $0.03/1K = $450/月 │ │ │ │ GPT-3.5: 15M × $0.001/1K = $15/月 │ │ │ │ 差距: 30倍！ │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ │ 省钱策略: │ │ 1. 简单任务用便宜模型 (GPT-3.5) │ │ 2. 精简prompt，删除冗余 │ │ 3. 缓存常见问答 │ │ 4. 批量处理，减少对话轮次 │ │ │ └─────────────────────────────────────────────────────────────┘

5.2 对上下文的影响

┌─────────────────────────────────────────────────────────────┐ │ 上下文窗口 = 能记住多少内容 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 不同模型的"记忆容量": │ │ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 模型 │ 上下文窗口 │ 约等于 │ │ │ ├─────────────────────────────────────────────────────┤ │ │ │ GPT-3.5 │ 4K tokens │ 3,000字 / 6页A4 │ │ │ │ GPT-4 │ 8K tokens │ 6,000字 / 12页A4 │ │ │ │ GPT-4-32K │ 32K tokens │ 24,000字 / 50页A4 │ │ │ │ GPT-4-Turbo │ 128K tokens │ 96,000字 / 200页A4 │ │ │ │ Claude 2 │ 100K tokens │ 75,000字 / 150页A4 │ │ │ │ Claude 3 │ 200K tokens │ 150,000字 / 300页A4 │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ │ 实际应用: │ │ • 4K窗口: 适合简单问答 │ │ • 32K窗口: 可以分析一篇长文章 │ │ • 128K+窗口: 可以分析整本书 │ │ │ │ 注意: 窗口越大，费用越高，速度越慢！ │ │ │ └─────────────────────────────────────────────────────────────┘

5.3 对响应速度的影响

┌─────────────────────────────────────────────────────────────┐ │ Token数量影响响应速度 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ AI是逐个Token生成的，像打字机一样一个字一个字地"打" │ │ │ │ 生成速度: 约 30-100 tokens/秒 (取决于模型和服务) │ │ │ │ 实际感受: │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 输出长度 │ Token数 │ 预计时间 │ │ │ ├─────────────────────────────────────────────────────┤ │ │ │ 一句话回复 │ 20 │ <1秒 │ │ │ │ 一段话回复 │ 100 │ 1-2秒 │ │ │ │ 详细解释 │ 500 │ 5-10秒 │ │ │ │ 长篇文章 │ 2000 │ 20-40秒 │ │ │ │ 完整代码文件 │ 4000 │ 40-80秒 │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ │ 优化建议: │ │ • 需要快速响应时，限制输出长度 │ │ • 使用流式输出(streaming)，边生成边显示 │ │ • 非紧急任务可以用更大但更慢的模型 │ │ │ └─────────────────────────────────────────────────────────────┘

六、常见问题解答

Q1: 为什么同样的文字，不同模型的Token数不同？

因为不同模型使用不同的词表（Vocabulary） 例如 "机器学习" 这个词： • 模型A的词表有"机器学习"整词 → 1 token • 模型B的词表只有单字 → "机""器""学""习" → 4 tokens 词表是训练时确定的，取决于： 1. 训练语料（英文多还是中文多） 2. 词表大小（32K还是100K） 3. 分词算法（BPE、WordPiece、SentencePiece）

Q2: 如何估算一段文字有多少Token？

经验法则: 英文: • 1 token ≈ 4 个字符 • 1 token ≈ 0.75 个单词 • 100 个单词 ≈ 130 tokens 中文: • 1 token ≈ 0.5-1 个汉字 • 100 个汉字 ≈ 100-200 tokens 快速估算: • 英文字符数 ÷ 4 ≈ token数 • 中文字符数 × 1.5 ≈ token数

Q3: Token和字数统计有什么区别？

字数统计: 统计文字的"字符"数量 Token统计: 统计AI处理的"最小单位"数量 例子: "I love AI" • 字符数: 9 (含空格) • 单词数: 3 • Token数: 3 (["I", " love", " AI"]) "我爱人工智能" • 字符数: 6 • 词数: 3 (我/爱/人工智能) • Token数: 6+ (每个字可能是1-2个token) 重要: AI收费看的是Token数，不是字数！

Q4: 如何减少Token消耗？

# 减少Token消耗的技巧# 1. 精简prompt# ❌ 冗长 prompt_bad =""" 你好！我想请你帮我一个忙。我需要你帮我写一段代码。 这段代码的功能是计算斐波那契数列。请问你可以帮我吗？ 如果可以的话，请用Python语言来写。谢谢！ """# ✅ 精简 prompt_good ="用Python写斐波那契数列函数"# 2. 使用缩写和简洁表达# ❌ "Please provide me with a detailed explanation of"# ✅ "Explain:"# 3. 删除不必要的礼貌用语# ❌ "Hello! I hope you're doing well. Could you please..."# ✅ 直接说需求# 4. 结构化输入# ✅ 用JSON或列表格式，比自然语言更节省token

七、总结

7.1 核心要点

┌─────────────────────────────────────────────────────────────┐ │ Token核心知识点 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 1. Token是什么 │ │ • AI处理文本的最小单位 │ │ • 不是字符，不是单词，是"子词" │ │ • 每个Token对应一个数字ID │ │ │ │ 2. 为什么重要 │ │ • 决定API费用 (按token计价) │ │ • 决定上下文大小 (窗口限制) │ │ • 影响响应速度 (逐token生成) │ │ │ │ 3. 经验法则 │ │ • 1 token ≈ 4英文字符 ≈ 0.75英文单词 │ │ • 1 token ≈ 0.5-1中文字 │ │ • 中文比英文消耗更多token │ │ │ │ 4. 实用技巧 │ │ • 用tiktoken库精确计算 │ │ • 精简prompt节省费用 │ │ • 根据任务选择合适的上下文窗口 │ │ │ └─────────────────────────────────────────────────────────────┘

7.2 一句话总结

Token是AI的"文字积木"——AI把文本拆成小块来理解和处理，这些小块就是Token。它决定了AI能看多少内容、要花多少钱、需要等多久。

希望这篇文章帮助你彻底理解了Token的概念！如有问题，欢迎在评论区讨论。

参考资源：

OpenAI Tokenizer: https://platform.openai.com/tokenizer
tiktoken库: https://github.com/openai/tiktoken
Hugging Face Tokenizers: https://huggingface.co/docs/tokenizers

作者：Jia

更多技术文章，欢迎关注我的ZEEKLOG博客！

一文彻底搞懂AI中的Token：用最直观的比喻让你秒懂

优质文章学习记录

一、Token到底是什么？

1.1 最简单的定义

1.2 为什么不直接用字符或单词？

二、五个比喻彻底理解Token

2.1 比喻一：乐高积木

2.2 比喻二：切菜

2.3 比喻三：工作台（上下文窗口）

2.4 比喻四：出租车计价器

2.5 比喻五：字典编号

三、Token化的工作原理

3.1 BPE算法：最常用的Token化方法

3.2 不同语言的Token效率

3.3 特殊Token

四、代码实战：亲手操作Token

4.1 使用tiktoken（OpenAI官方）

4.2 查看每个Token对应的文本

4.3 计算API费用

4.4 对比不同语言的Token效率

4.5 使用Hugging Face Tokenizer

五、Token的实际影响

5.1 对费用的影响

5.2 对上下文的影响

5.3 对响应速度的影响

六、常见问题解答

Q1: 为什么同样的文字，不同模型的Token数不同？

Q2: 如何估算一段文字有多少Token？

Q3: Token和字数统计有什么区别？

Q4: 如何减少Token消耗？

七、总结

7.1 核心要点

7.2 一句话总结

Read more

【花雕学编程】Arduino BLDC 之使用6.5寸轮毂电机的智能动态跟随机器人底盘

零代码上手！用 Rokid 灵珠平台，5 步搭建专属旅游 AR 智能体

零成本搭建飞书机器人：手把手教你用Webhook实现高效消息推送

Clawdbot（Moltbot）源码部署全实测：从环境搭建到 WebChat 验证，避坑指南收好