一文带大家理解各种AI大模型收费指标tokens到底是什么东东

优质文章学习记录

08 Apr 2026 — 6 min read

Token收费举例

大家在使用各个模型的过程中，一定会关注到，各个模型都是按照使用的tokens进行收费的，例如：

1. 推理输入：0.6 元 / 百万 tokens

含义：你向大模型提问、上传文档、粘贴上下文等 “给模型看的内容”，每消耗 100 万个 tokens，收费 0.6 元。
通俗例子：你发了一段 1000 字的文章给模型，大约 ≈ 1300 tokens（按 1 字≈1.3 token 粗算）。费用 ≈ 0.6 元 / 1,000,000 × 1,300 ≈ 0.00078 元，几乎可以忽略不计。

2. 推理输出：3.6 元 / 百万 tokens

含义：模型生成的回答、代码、文案等 “给你的内容”，每消耗 100 万个 tokens，收费 3.6 元。
通俗例子：模型给你写了一篇 1000 字的回答，同样约 1300 tokens。费用 ≈ 3.6 / 1,000,000 × 1,300 ≈ 0.00468 元，比输入贵一些。

Token 到底是什么？

Token 是大语言模型（LLM）处理文本的最小单位，可以理解为模型 “读” 和 “写” 的 “单词 / 字符 / 子词”。它不是一个单一的技术点，而是一套贯穿模型训练、推理和部署的核心机制。

1. 本质：文本的 “数字化编码”

Token 是模型将人类可读的文本（中文、英文、数字、符号等）切分并编码后得到的数字 ID。
模型不直接处理 “汉字” 或 “字母”，而是处理这些数字 ID。
切分规则由模型的 ** 分词器（Tokenizer）** 决定，不同模型（如 GPT、Doubao、Claude）的分词规则略有差异。

2. 常见的 Token 类型

英文 / 拉丁语言：通常是子词（Subword），例如 unhappiness 会被切分为 un, happiness。
中文：通常是单字或双字词，例如 “我爱中国” 可能被切分为 我, 爱, 中, 国 或 我爱, 中国。
特殊符号：空格、标点、换行符等也会被编码为独立的 Token。

3. 一个直观的例子

以 Doubao/OpenAI 的分词器为例：

输入文本：Hello, 我是豆包，一个AI助手。
分词结果（Token）：Hello, ,, 我, 是, 豆, 包, ，, 一, 个, AI, 助, 手, 。
每个 Token 对应一个唯一的数字 ID，例如 Hello → 15496，我 → 1770。

Token 对应的核心技术点

1. 分词器（Tokenizer）：文本到 Token 的桥梁

技术角色：负责将输入文本切分为 Token，并将 Token 映射为模型可处理的数字 ID。
关键技术：
- BPE（Byte Pair Encoding）：最主流的分词算法，通过统计语料中高频出现的字符组合，逐步合并为子词，平衡词汇表大小和分词效率。
- Unigram 模型：从一个大的初始词汇表中，通过概率模型逐步移除低频 Token，优化分词效果。
- 字节级分词：直接对 UTF-8 字节进行编码，避免处理生僻字或 emoji 时出现 “未知 Token” 的问题。
技术意义：分词器的质量直接影响模型对文本的理解能力。好的分词器能准确切分专业术语、方言词汇，避免语义丢失。

2. 嵌入层（Embedding Layer）：Token 到向量的转换

技术角色：将每个 Token 的数字 ID 转换为一个高维向量（Embedding），这个向量包含了 Token 的语义信息。
关键技术：
- 词嵌入（Word Embedding）：通过训练学习到的向量，例如 猫 和 狗 的向量在空间中距离较近，因为它们都是动物。
- 位置编码（Positional Encoding）：Transformer 模型本身不具备时序感知能力，位置编码会为每个 Token 添加位置信息，让模型知道 “我” 在 “爱” 之前。
技术意义：嵌入层是模型理解文本语义的第一步，高质量的嵌入能让模型更好地捕捉文本中的上下文关系。

3. 上下文窗口（Context Window）：Token 的 “记忆容量”

技术角色：模型在一次推理中能处理的最大 Token 数量，包括输入和输出。
关键技术：
- 注意力机制（Attention Mechanism）：Transformer 模型的核心，通过计算 Token 之间的注意力权重，让模型关注文本中的关键信息。注意力机制的计算复杂度是 O (n²)，n 是 Token 数量，因此上下文窗口越大，计算成本越高。
- 滑动窗口（Sliding Window）：为了突破上下文窗口的限制，一些模型会采用滑动窗口技术，只关注当前窗口内的 Token。
- KV 缓存（KV Cache）：在多轮对话中，模型会缓存之前的 Key 和 Value 向量，避免重复计算，提高推理效率。
技术意义：上下文窗口决定了模型能 “记住” 多少信息。256k 的上下文窗口意味着模型可以处理长达 19 万字的文本，这对于长文档理解、代码生成等场景至关重要。

4. 推理成本（Cost）：Token 的 “经济价值”

技术角色：Token 是计算和存储成本的基本单位。
关键技术：
- 计算成本：每个 Token 都需要经过多层 Transformer 块的计算，Token 数量越多，计算时间越长，GPU 资源消耗越大。
- 存储成本：KV 缓存需要存储之前的 Key 和 Value 向量，Token 数量越多，占用的显存越大。
- 缓存命中（Cache Hit）：如果输入 Token 序列与之前的请求高度相似，模型可以直接复用之前的计算结果，大幅降低成本。
技术意义：Token 数量直接决定了模型的使用成本。优化 Token 数量（例如使用更高效的分词器、压缩文本）是降低大模型部署成本的关键。

Token 技术栈的完整流程

文本输入：用户输入 Hello, 我是豆包。
分词：Tokenizer 将文本切分为 Hello, ,, 我, 是, 豆, 包, 。，并映射为数字 ID。
嵌入：嵌入层将数字 ID 转换为高维向量，并添加位置编码。
推理：Transformer 模型通过注意力机制处理这些向量，生成新的 Token 序列。
解码：Tokenizer 将生成的 Token 序列转换回人类可读的文本。
计费：根据输入和输出的 Token 数量，计算使用成本。

总结：Token 为什么重要？

它是模型的 “语言”：模型通过 Token 来理解和生成文本。
它是成本的 “标尺”：Token 数量直接决定了模型的计算和存储成本。
它是能力的 “边界”：上下文窗口的大小决定了模型能处理的文本长度和复杂程度。

FPGA实现CIC抽取滤波器

FPGA实现CIC抽取滤波器 * 一、什么是CIC滤波器 * （一）CIC滤波器原理和结构 * （二）最大位宽计算 * 二、CIC抽取滤波器FPGA实现 * （一）Verilog代码 * （二）仿真分析一、什么是CIC滤波器（一）CIC滤波器原理和结构 CIC（级联积分梳状）滤波器，它是一种高效的多速率信号处理滤波器，是一种无乘法器的线性相位FIR滤波器。常用于数字下变频（DDC）和数字上变频（DUC）中。CIC滤波器的主要优点是不需要乘法器，结构简单，仅由加法器、减法器和寄存器组成。CIC滤波器是FIR滤波器的一种，可以只使用积分器和梳状器来实现，没有了FIR的乘法操作，实现非常的简单并且大大节约了资源。 CIC滤波器有三种工作模式：抽取滤波器（最常用）、插值滤波器和单纯滤波器。 * 抽取滤波器：数据流由高速输入变为低速输出，主要应用于数字下变频以及降低采样率的系统中。其结构如下图所示： * 单纯滤波器：数据流速率不变，积分器和梳状器都工作在同一个采样率下，主要应用于移动平均滤波。 * 插值滤波器：数据流由低速输入变

免费使用AI绘画模型Nano Banana Pro，太有意思了！

大家好，我是程序员小灰。关注AI的朋友们应该都知道，最近谷歌的AI模型Gemini3.0 Pro爆火了。Gemini3是一个AI大家族，这个家族的成员不只有善于文字对话的大语言模型，还包括着善于绘画的图像生成模型，Nano Banana Pro。这两天小灰亲自测试了Nano Banana Pro模型，虽然说不上完美，但真的十分有趣！（后文简称Nano Banana）如何免费使用Nano Banana？想要免费使用Nano Banana，小灰给大家推荐三个地方： 1.Gemini官网入口如下： https://gemini.google.com/ 在Gemini官网的对话框下方，点击“制作图片”选项，就可以和Nano Banana模型进行对话： 2.Google AI Studio 入口如下： https://aistudio.google.com/ 在Google AI Studio的首页右下角，点击“

ESP-Drone：乐鑫 ESP32/ESP32-S2/ESP32-S3 开发的小型无人机解决方案

目录概述 1 主要特性 2 ESP-Drone无人机的硬件类型 3 硬件组装示意图 4 项目源代码概述 ESP-Drone 是基于乐鑫 ESP32/ESP32-S2/ESP32-S3 开发的小型无人机解决方案，可使用手机 APP 或游戏手柄通过 Wi-Fi 网络进行连接和控制。该方案硬件结构简单，代码架构清晰，支持功能扩展，可用于 STEAM 教育等领域。 1 主要特性 ESP-Drone 具备以下特性：支持自稳定模式 (Stabilize mode)：自动控制机身水平，保持平稳飞行。支持定高模式 (Height-hold mode)：自动控制油门输出，保持固定高度。支持定点模式 (Position-hold mode)：自动控制机身角度，保持固定空间位置。支持 PC 上位机调试：

用DSP + FPGA 掌控步进电机的奇妙之旅

DSP＋FPGA控制步进电机例程源代码、原理图DSP(F28335) + FPGA(XC3S500E) 控制步进电机例程源代码、原理图。这段话涉及到的知识点是DSP（数字信号处理）和FPGA（现场可编程门阵列）。DSP是一种用于处理数字信号的技术，它可以对信号进行滤波、变换和编码等操作。FPGA是一种可编程逻辑器件，可以根据需要重新配置其内部电路，实现不同的功能。在这个例程中，DSP（具体型号为F28335）和FPGA（具体型号为XC3S500E）被用来控制步进电机。步进电机是一种特殊的电机，它可以根据输入的脉冲信号精确地旋转一定角度。DSP和FPGA通过例程源代码和原理图来实现对步进电机的控制。延申科普： 1. DSP（数字信号处理）：DSP是一种用于处理数字信号的技术，它广泛应用于通信、音频、图像和视频等领域。DSP可以对信号进行滤波、变换、编码和解码等操作，以提取有用的信息或改变信号的特性。 2. FPGA（现场可编程门阵列）：FPGA是一种可编程逻辑器件，它由大量的逻辑单元和可编程连线组成。FPGA可以根据需要重新配置其内部电路，实现不同的功能。它在数字电路设计、嵌入式系