Skip to content

Token

你可以把令牌(tokens)理解为 AI 模型实际处理的"词"。但它们并不等同于我们日常使用的词语。

就像计算机并不真正理解字母"A",而是用二进制(1 和 0)工作一样,AI 模型也不是直接处理"hello"或"world"这样的词。相反,它们会把一切拆分为更小的片段,称为 令牌(tokens)

例如,"hello"可能是一个令牌,但"understanding"可能会被拆分为多个令牌,如"under""stand""ing"。有时甚至词的部分、标点或空格也会单独成为令牌。

为什么这很重要?有两个原因:

  1. 令牌决定了模型的计费方式。 按令牌计费,而不是按单词或字符。
  2. 令牌也是衡量模型速度的指标。 更快的模型具有更高的 TPS(每秒令牌数),并更快返回给用户。

先说定价,因为这会影响你在使用 AI 模型时的花费。

了解 token

如果我们继续沿用把 AI 模型比作 API 的类比,那么 token 就是用来衡量并为输入与输出流量计费的单位。

AI 模型基于两类 token 收费:

  1. 输入 token ,包括你发送给模型的所有内容,例如提示词(prompt)和先前的对话。
  2. 输出 token ,包括模型返回给你的所有生成内容。

输出 token 通常比输入 token 贵 2--4 倍,因为生成新内容比仅处理你发送的内容需要更多计算。

由于 AI 模型按 token 计费,理解它们是控制成本的关键。可以把这类比为了解你的服务器成本构成。

你需要有意识地控制初始上下文中包含的信息量(我们稍后会讨论),以及如何引导模型在回复中保持简洁或提供更详细的内容。

流式响应

你是否注意过 ChatGPT 或其他 AI 聊天机器人似乎在"实时打字"回复?这不只是视觉效果,这实际上就是模型的底层工作方式。

AI 模型按顺序一次生成一个 token。它们先预测下一个 token,再用该预测去帮助预测后续的 token,以此类推。因此你会看到回复逐词出现(更准确地说,是逐个 token)。

响应可以以流的形式返回。这很好,因为你无需等待完整回复结束(可能需要几分钟),而且一旦模型开始跑偏,你就可以中断它。

优化 token 使用

AI 工具通常会采用一些技术来减少发送给底层模型的 token 数量。例如,自动缓存你经常复用的提示部分,或帮助你管理每次请求所包含的上下文。

下一课我们将深入探讨上下文。