Token (词元)
你有没有好奇过,当你向 Deepseek、豆包、千问、ChatGPT 或 Claude 提问时,AI 是怎么读懂你的文字的?
答案的核心,就是一个叫做 Token,中文称之为 词元的概念。理解 Token,是走进 AI 世界的第一步。
什么是 Token (词元)?
Token (词元) = AI 能理解的最小文本单位
我们可以把它理解成:AI 世界里的文字碎片或者 AI 世界的燃料。
就像人类阅读时以词语为单位来理解意思,AI 也不会逐个字母地处理文字——它会先把文本切割成一块一块的碎片,每一块就叫做一个 Token(词元)。
一个好用的比喻:
把一篇文章想象成一块比萨,你不会整块吞下去,也不会把它碾成粉末——而是切成一块一块,每块就是一个 Token。AI 就是这样吃进文字的:切块、理解、消化。
Token 比单词更细,比字母更粗,是一种灵活的中间单位。
Token 长什么样?
不同的文本,切分方式大相径庭。
常见词是一个 Token,复杂词会被拆开,标点也算 Token。
英文句子
"Hello, world!"
Hello
→
,
→
world
→
!
共 4 个 Token
复杂英文单词
"unbelievable"
un
believ
able
共 3 个 Token —— 长词会被拆分
中文句子
"你好,世界!"
你好
,
世界
!
共 4 个 Token —— 中文每字约消耗更多 Token
Token 和 字、 词 有什么区别?
很多人会以为 Token = 单词,但其实并不完全是。
Token 的划分遵循一套特殊的算法(比如 BPE,字节对编码),结果有时候很直觉,有时候却出人意料:
| 文本 | Token 数量 | 说明 |
|---|---|---|
cat |
1 | 常见词,直接一个 Token |
unbelievable |
4 | un + believ + able + … |
ChatGPT |
3 | Chat + G + PT |
你好 |
约 2~3 | 中文通常比英文消耗更多 Token |
结论: Token 比单词更细,比字母更粗,是一种灵活的中间单位。
最细粒度
字符 / 字母
粒度
单个字母或汉字
示例
H, e, l, l, o
AI 是否使用
❌ 太细,信息密度低
类比
把比萨碾成粉末
✦ AI 实际使用
Token(词元)
粒度
词根、短词、字符组合
示例
Hello / Chat·G·PT / un·believ·able
AI 是否使用
✅ 高效,平衡信息密度
类比
把比萨切成合适的一口大小
最粗粒度
单词 / 句子
粒度
完整单词或句子
示例
Hello, unbelievable
AI 是否使用
❌ 太粗,处理不灵活
类比
整块比萨一口塞进去
Token 为什么重要?
1. 它决定了 AI 能读多少
每个 AI 模型都有一个 上下文窗口(Context Window),也就是它一次能处理的最大 Token 数量。比如:
- GPT-3.5:约 4,000 Token
- GPT-4 Turbo:约 128,000 Token
- Claude 3.5:约 200,000 Token
超过这个限制,AI 就会记不住之前说的话,就像一个人的短期记忆装满了一样。
2. 它影响 API 的使用费用
调用 AI 接口(API)时,费用通常按 Token 数量计费。输入的文字 + AI 回复的文字,都会消耗 Token,所以写得越长,花费越多。
3. 它影响 AI 的回复速度
AI 生成文字时,是一个 Token 一个 Token 地输出的,所以回复越长,等待时间越久。
Token 的小知识
- 1,000 个 Token ≈ 750 个英文单词,是一个常用的估算比例。
- 中文、日文、韩文等亚洲语言通常比英文消耗更多 Token,因为这些字符在编码上更复杂。
- 空格和标点也算 Token!不要以为只有文字才计数。
- 代码的 Token 消耗一般比自然语言少,因为编程语言结构紧凑。
总结
| 概念 | 一句话解释 |
|---|---|
| Token | AI 处理文本的最小单位,介于字符和单词之间 |
| 上下文窗口 | AI 一次能处理的最大 Token 数 |
| Token 计费 | API 调用按输入+输出的 Token 总量收费 |
| Token 生成 | AI 回复是逐 Token 产生的,越长越慢 |
