Token

你可以把令牌（tokens）理解为 AI 模型实际处理的"词"。但它们并不等同于我们日常使用的词语。

就像计算机并不真正理解字母"A"，而是用二进制（1 和 0）工作一样，AI 模型也不是直接处理"hello"或"world"这样的词。相反，它们会把一切拆分为更小的片段，称为 令牌（tokens） 。

例如，"hello"可能是一个令牌，但"understanding"可能会被拆分为多个令牌，如"under""stand""ing"。有时甚至词的部分、标点或空格也会单独成为令牌。

为什么这很重要？有两个原因：

先说定价，因为这会影响你在使用 AI 模型时的花费。

了解 token

如果我们继续沿用把 AI 模型比作 API 的类比，那么 token 就是用来衡量并为输入与输出流量计费的单位。

AI 模型基于两类 token 收费：

输出 token 通常比输入 token 贵 2--4 倍，因为生成新内容比仅处理你发送的内容需要更多计算。

由于 AI 模型按 token 计费，理解它们是控制成本的关键。可以把这类比为了解你的服务器成本构成。

你需要有意识地控制初始上下文中包含的信息量（我们稍后会讨论），以及如何引导模型在回复中保持简洁或提供更详细的内容。

你是否注意过 ChatGPT 或其他 AI 聊天机器人似乎在"实时打字"回复？这不只是视觉效果，这实际上就是模型的底层工作方式。

AI 模型按顺序一次生成一个 token。它们先预测下一个 token，再用该预测去帮助预测后续的 token，以此类推。因此你会看到回复逐词出现（更准确地说，是逐个 token）。

响应可以以流的形式返回。这很好，因为你无需等待完整回复结束（可能需要几分钟），而且一旦模型开始跑偏，你就可以中断它。

AI 工具通常会采用一些技术来减少发送给底层模型的 token 数量。例如，自动缓存你经常复用的提示部分，或帮助你管理每次请求所包含的上下文。