Token(令牌)
Token(令牌)是什么?
Token 是 AI 模型用作基本处理单位的小块文本(大致是一个词或词的一部分),就像模型用来构建其理解的一块块砖。
一图看懂
- 别称
- 文本 token输入 token输出 token视觉 token
- 主要用途
- 衡量 AI 模型中的提示长度与上下文窗口消耗基于所处理的 token 计算 AI API 的使用成本在多模态架构中把图像块表示为视觉 token理解模型注意力如何在提示内容中分配
- Key features
- 基本的文本处理单位:大致是一个词或词的一部分Token 上限定义最大提示长度、输出长度与会话记忆在多模态模型中扩展为视觉 token,用于图像与视频输入Token 的位置与邻近关系影响概念之间关联的强弱
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
Token 与词、字符及参数相关但不同。词是 token 所近似的人类语言单位;字符是 token 所聚合的字母级原始单位;参数是模型神经网络内部习得的权重,是一个完全不同的概念,在随意讨论中有时会与 token 混淆。模型的参数量描述其规模与学习容量,而其 token 数描述它一次能处理的文本长度:一个参数更多的模型,未必就拥有更大的上下文窗口,而更大的上下文窗口也并不意味着模型有更多知识或能力。这一区别在评估 AI 工具时很重要:参数量衡量模型知道什么;token 上限衡量它一次能关注多少。
可以这样理解…
把 token 想象成一幅极大拼图中的一块。一个词往往是一块,但一个不寻常或技术性的词可能需要被拆成两三块更小的块,模型再从上下文中把它们拼成意义。模型一次只能在桌面上放一定数量的块:这就是它的上下文窗口。如果你往桌上倒太多块,最早的那些就会从边缘滑落、被遗忘。这就是为什么长提示有时会忘记那些远离当前生成点所指定的指令:那些 token 已经移出了活跃的注意空间。
实用提示
为 AI 视频或图像生成编写提示时,把开头的二三十个 token 当作黄金地段。先写最关键的创意决策(主体、摄影机处理、视觉风格、布光),再加入次要细节,如背景元素、色温或氛围。模型对靠前 token 的加权比靠后的更一致,而一段把关键指令埋在第三段的长提示,往往会在那条指令上执行不足,却忠实地遵循早先描述的细节。如果你的提示一向很长,试着做一遍精简,删去任何能从上下文推断出的措辞,把 token 腾给模型无法猜到的、真正具体的创意方向。
类型与变体
Token 根据所用的模态与上下文呈现不同形式。文本 token 是标准形式:由分词器从输入文本产生、并由模型注意力层顺序处理的语言单位。输入 token 是用户作为提示一部分提交的;输出 token 是模型作为响应生成的。在商业 AI API 中,这两者通常定价不同,因为输出生成在计算上比输入处理更密集。视觉 token 把这一概念扩展到图像数据:图像被分割为固定尺寸的空间块,每一块被转换为一个数值向量,与文本 token 并列被模型处理。在视频模型中,时间 token 表示帧序列,在空间块结构上加入了时间维度。特殊 token(如标记序列开头或结尾的 token,或不同内容类型之间的分隔 token)被模型在内部用于管理上下文结构。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
在通过 API 使用 AI 模型时,Token 意识最为直接相关,,使用按 token 计费,而上下文窗口上限要求对提示长度与对话历史进行细致管理。构建 AI 驱动应用的开发者必须在一个会话内追踪累计 token 数,以避免超出上下文上限并管理 API 成本。对于直接使用 AI 生成界面的创作者而言,当构建冗长、详尽的提示时,token 的考量会变得相关,,尤其是带有多个主体、特定风格参考与详细技术指令的复杂场景,,其中存在提示后段内容被模型欠关注的风险。理解 token 分配,也有助于解释为什么多主体场景有时会对某个主体描述不足:如果提示花了大量 token 详细确立第一个主体,留给描述第二个的 token 就更少,导致画面各部分生成质量不均。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
Token 是 AI 模型处理的基本文本单位。模型并不读取原始字符或完整单词,而是处理由分词器把输入文本切分为标准化单位所产生的 token 序列。Token 数之所以重要,是因为它决定了提示长度上限、会话记忆大小与 API 使用成本;还因为模型在一个非常长的 token 序列中对内容的关注能力,会对远离当前生成点的内容下降,从而影响长提示或复杂提示的生成质量。
一条好用的经验法则是:100 个 token 大约对应 75 个英文单词,即平均每个单词约对应 1.33 个 token。像 the 或 and 这样的常见短词通常是单个 token,而较长或较生僻的词可能被拆成两个或更多 token。标点、空格与特殊字符也会消耗 token,因此实际的词与 token 比例会随写作风格、词汇复杂度以及模型所用的具体分词方案而变化。
上下文窗口是 AI 模型在单个会话中能处理的最大 token 数:它的工作记忆。所有输入 token(提示)与输出 token(响应)都计入这一上限。当对话或提示超出上下文窗口时,较早的内容会被截断或降权,意味着模型失去对此前所给信息的访问。上下文窗口的大小在不同模型之间差异显著,从较小系统中的几千 token,到前沿模型中的数十万 token。
会:在接受图像输入的多模态模型中,图像被分割为空间块,每一块被转换为一个视觉 token。一张典型图像可能产生数百个视觉 token,具体取决于其分辨率与模型的块尺寸。更高分辨率的图像消耗更多 token,这意味着在多模态提示中使用高分辨率参考图,会显著减少留给文本指令的 token 预算。在使用视觉输入时留意图像分辨率,有助于在以图像为条件的生成工作流中管理上下文窗口的使用。
模型顺序处理 token 并在整个序列中分配注意力,但这种注意力并非完全均匀。提示开头附近的内容,以及紧邻生成点之前的内容,往往获得最一致的注意。埋在长提示深处的指令(距离开头数百个 token)被欠权重的风险更大,尤其在提示接近模型上下文窗口上限时。把最关键的创意指令放在提示靠前位置,并保持提示简洁,可减弱这一效应。
输入 token 是构成提交给模型的提示的 token:用户提供的所有文本、图像块或其他内容。输出 token 是模型作为响应生成的 token。在商业 AI API 中,这两者通常定价不同,因为生成每一个输出 token 都需要运行一次完整的模型前向传递,这在计算上比处理输入 token 更密集。对于输出较长的生成任务(如生成完整剧本或冗长的创意方案),输出 token 成本可能显著超过输入 token 成本。
对视频与图像生成提示而言,token 意识意味着先写最重要的创意与构图决策(主体取景、摄影机运动、视觉风格、布光),再加入次要细节。模型对靠前 token 的关注最一致,因此把关键指令埋在密集段落的中间或末尾,会带来执行不一致的风险。力求简洁、精确的提示,把创意细节前置,避免那些消耗 token 却不添加新信息的冗余措辞。正因如此,更短、结构良好的提示往往胜过更长、更面面俱到的提示。
不是:token 与参数描述的是 AI 模型完全不同的方面。Token 是模型在推理时处理的文本或视觉输入单位;它们描述使用过程中进出模型的内容。参数是存储在模型神经网络内部、习得的数值权重,编码其知识与能力;它们描述模型知道什么、如何处理信息。参数更多的模型拥有更多习得容量,而 token 上下文窗口更大的模型一次能处理更多信息:这是两个独立的属性,在不同模型之间各自变化。