一文带大家理解各种AI大模型收费指标tokens到底是什么东东

优质文章学习记录

07 Apr 2026 — 6 min read

Token收费举例

大家在使用各个模型的过程中，一定会关注到，各个模型都是按照使用的tokens进行收费的，例如：

1. 推理输入：0.6 元 / 百万 tokens

含义：你向大模型提问、上传文档、粘贴上下文等 “给模型看的内容”，每消耗 100 万个 tokens，收费 0.6 元。
通俗例子：你发了一段 1000 字的文章给模型，大约 ≈ 1300 tokens（按 1 字≈1.3 token 粗算）。费用 ≈ 0.6 元 / 1,000,000 × 1,300 ≈ 0.00078 元，几乎可以忽略不计。

2. 推理输出：3.6 元 / 百万 tokens

含义：模型生成的回答、代码、文案等 “给你的内容”，每消耗 100 万个 tokens，收费 3.6 元。
通俗例子：模型给你写了一篇 1000 字的回答，同样约 1300 tokens。费用 ≈ 3.6 / 1,000,000 × 1,300 ≈ 0.00468 元，比输入贵一些。

Token 到底是什么？

Token 是大语言模型（LLM）处理文本的最小单位，可以理解为模型 “读” 和 “写” 的 “单词 / 字符 / 子词”。它不是一个单一的技术点，而是一套贯穿模型训练、推理和部署的核心机制。

1. 本质：文本的 “数字化编码”

Token 是模型将人类可读的文本（中文、英文、数字、符号等）切分并编码后得到的数字 ID。
模型不直接处理 “汉字” 或 “字母”，而是处理这些数字 ID。
切分规则由模型的 ** 分词器（Tokenizer）** 决定，不同模型（如 GPT、Doubao、Claude）的分词规则略有差异。

2. 常见的 Token 类型

英文 / 拉丁语言：通常是子词（Subword），例如 unhappiness 会被切分为 un, happiness。
中文：通常是单字或双字词，例如 “我爱中国” 可能被切分为 我, 爱, 中, 国 或 我爱, 中国。
特殊符号：空格、标点、换行符等也会被编码为独立的 Token。

3. 一个直观的例子

以 Doubao/OpenAI 的分词器为例：

输入文本：Hello, 我是豆包，一个AI助手。
分词结果（Token）：Hello, ,, 我, 是, 豆, 包, ，, 一, 个, AI, 助, 手, 。
每个 Token 对应一个唯一的数字 ID，例如 Hello → 15496，我 → 1770。

Token 对应的核心技术点

1. 分词器（Tokenizer）：文本到 Token 的桥梁

技术角色：负责将输入文本切分为 Token，并将 Token 映射为模型可处理的数字 ID。
关键技术：
- BPE（Byte Pair Encoding）：最主流的分词算法，通过统计语料中高频出现的字符组合，逐步合并为子词，平衡词汇表大小和分词效率。
- Unigram 模型：从一个大的初始词汇表中，通过概率模型逐步移除低频 Token，优化分词效果。
- 字节级分词：直接对 UTF-8 字节进行编码，避免处理生僻字或 emoji 时出现 “未知 Token” 的问题。
技术意义：分词器的质量直接影响模型对文本的理解能力。好的分词器能准确切分专业术语、方言词汇，避免语义丢失。

2. 嵌入层（Embedding Layer）：Token 到向量的转换

技术角色：将每个 Token 的数字 ID 转换为一个高维向量（Embedding），这个向量包含了 Token 的语义信息。
关键技术：
- 词嵌入（Word Embedding）：通过训练学习到的向量，例如 猫 和 狗 的向量在空间中距离较近，因为它们都是动物。
- 位置编码（Positional Encoding）：Transformer 模型本身不具备时序感知能力，位置编码会为每个 Token 添加位置信息，让模型知道 “我” 在 “爱” 之前。
技术意义：嵌入层是模型理解文本语义的第一步，高质量的嵌入能让模型更好地捕捉文本中的上下文关系。

3. 上下文窗口（Context Window）：Token 的 “记忆容量”

技术角色：模型在一次推理中能处理的最大 Token 数量，包括输入和输出。
关键技术：
- 注意力机制（Attention Mechanism）：Transformer 模型的核心，通过计算 Token 之间的注意力权重，让模型关注文本中的关键信息。注意力机制的计算复杂度是 O (n²)，n 是 Token 数量，因此上下文窗口越大，计算成本越高。
- 滑动窗口（Sliding Window）：为了突破上下文窗口的限制，一些模型会采用滑动窗口技术，只关注当前窗口内的 Token。
- KV 缓存（KV Cache）：在多轮对话中，模型会缓存之前的 Key 和 Value 向量，避免重复计算，提高推理效率。
技术意义：上下文窗口决定了模型能 “记住” 多少信息。256k 的上下文窗口意味着模型可以处理长达 19 万字的文本，这对于长文档理解、代码生成等场景至关重要。

4. 推理成本（Cost）：Token 的 “经济价值”

技术角色：Token 是计算和存储成本的基本单位。
关键技术：
- 计算成本：每个 Token 都需要经过多层 Transformer 块的计算，Token 数量越多，计算时间越长，GPU 资源消耗越大。
- 存储成本：KV 缓存需要存储之前的 Key 和 Value 向量，Token 数量越多，占用的显存越大。
- 缓存命中（Cache Hit）：如果输入 Token 序列与之前的请求高度相似，模型可以直接复用之前的计算结果，大幅降低成本。
技术意义：Token 数量直接决定了模型的使用成本。优化 Token 数量（例如使用更高效的分词器、压缩文本）是降低大模型部署成本的关键。

Token 技术栈的完整流程

文本输入：用户输入 Hello, 我是豆包。
分词：Tokenizer 将文本切分为 Hello, ,, 我, 是, 豆, 包, 。，并映射为数字 ID。
嵌入：嵌入层将数字 ID 转换为高维向量，并添加位置编码。
推理：Transformer 模型通过注意力机制处理这些向量，生成新的 Token 序列。
解码：Tokenizer 将生成的 Token 序列转换回人类可读的文本。
计费：根据输入和输出的 Token 数量，计算使用成本。

总结：Token 为什么重要？

它是模型的 “语言”：模型通过 Token 来理解和生成文本。
它是成本的 “标尺”：Token 数量直接决定了模型的计算和存储成本。
它是能力的 “边界”：上下文窗口的大小决定了模型能处理的文本长度和复杂程度。

人工智能：预训练语言模型与BERT实战应用

人工智能：预训练语言模型与BERT实战应用 1.1 本章学习目标与重点 💡 学习目标：掌握预训练语言模型的核心思想、BERT模型的架构原理，以及基于BERT的文本分类任务实战流程。 💡 学习重点：理解BERT的双向注意力机制与掩码语言模型预训练任务，学会使用Hugging Face Transformers库调用BERT模型并完成微调。 1.2 预训练语言模型的发展历程与核心思想 1.2.1 为什么需要预训练语言模型 💡 传统的自然语言处理模型（如LSTM+词嵌入）存在两个核心痛点：一是需要大量标注数据才能训练出高性能模型，二是模型对语言上下文的理解能力有限。预训练语言模型的出现解决了这些问题。它的核心思路是先在大规模无标注文本语料上进行预训练，学习通用的语言知识和语义表示，再针对特定任务进行微调。这种“预训练+微调”的范式，极大降低了对标注数据的依赖，同时显著提升了模型在各类NLP任务上的性能。预训练语言模型的发展可以分为三个阶段： 1. 单向语言模型阶段：以ELMo为代表，通过双向LSTM分别学习正向和反向的语言表示，再拼接得到词向量。但ELMo本质还

【企业级】RuoYi-Vue-Plus AI 智能开发助手 | Claude Code + Codex 双引擎 | 40+ 专业技能包 | 10 大快捷命令 | 开箱即用

RuoYi-Vue-Plus AI 智能编程助手商品简介基于 RuoYi-Vue-Plus 5.X 企业级后端框架，深度定制的 AI 智能编程助手配置包。支持 Claude Code 和 OpenAI Codex 双 AI 引擎，内置 40+ 专业开发技能、10 大快捷命令、智能钩子系统，让 AI 真正理解您的项目架构和开发规范，实现 10 倍开发效率提升。核心亮点 🚀 双 AI 引擎支持引擎配置目录说明Claude Code.claude/Anthropic Claude 官方 CLI 工具配置OpenAI Codex.codex/OpenAI Codex CLI

IDEA + DeepSeek 实现 AI辅助编程，提升效率10倍（全网超详细的终极图文实战指南）

前言在软件开发的世界里，每个开发者都经历过这样的困境——在重复的CRUD代码中机械劳动，为复杂的业务逻辑调试数小时，或是在海量文档中寻找某个API的正确用法。传统的IDE工具虽能提供基础支持，却难以突破效率的“玻璃天花板”。而今，随着DeepSeek-Coder与IntelliJ IDEA的深度碰撞，一场编程范式的革新正在悄然发生：通过智能代码预测、全栈自动化生成和上下文感知编程，开发者不仅能将Spring Boot接口开发耗时从4小时压缩至15分钟，更能在调试环节直接定位80%的异常根源。本文将主要介绍如何在 IntelliJ IDEA 开发工具中通过插件深度整合 DeepSeek 实现 AI 编程的方法，步骤详细，一步一步的教你去操作，让AI真正成为你键盘的延伸——不是替代开发者，而是让每行代码都诞生于「人机协作」的智能涌现，提升你的开发效率！废话不多说了，下面直接上干货。目录前言图文教程 1. 安装Proxy AI插件 2. 创建Deep Seek的API key 3. IntelliJ IDEA中设置AI模型

从高原到云端：一个青海少年的AI农业创业之路

“我曾翻越二十公里山路去上学，如今，我的代码正飞越万亩农田。” 一、高原的孩子，心里装着整个世界我出生在青海的一座山村。村子不通公交，家到镇上中学要走两个多小时——二十余公里的崎岖山路，雨天泥泞，冬天结冰。书包里除了课本，还有母亲塞进去的馍馍和咸菜。但山再高，也挡不住一颗想看世界的心。从小，我痴迷历史与文学。《史记》里那些金戈铁马的故事，《红楼梦》中细腻入微的人情冷暖，让我在煤油灯下读到深夜。我内心敏感，常因一片云影掠过麦田、一声鹰啸划破长空而思绪万千。那时的我，以为人生只有两条路：要么走出高原，要么被高原埋没。直到村里通了网。那一年，我15岁。第一次用手机连上4G信号，点开一个叫“Python教程”的视频，从此命运悄然转向。二、代码，是我翻山越岭的新脚力高中三年，我白天上课，晚上自学编程。没有电脑，就用二手安卓机敲代码；没有老师，就靠B站、GitHub和Stack Overflow。