Token(令牌)

Token(令牌)是什么?

Token 是 AI 模型用作基本处理单位的小块文本(大致是一个词或词的一部分),就像模型用来构建其理解的一块块砖。

一图看懂

别称
文本 token输入 token输出 token视觉 token
主要用途
衡量 AI 模型中的提示长度与上下文窗口消耗基于所处理的 token 计算 AI API 的使用成本在多模态架构中把图像块表示为视觉 token理解模型注意力如何在提示内容中分配
Key features
基本的文本处理单位:大致是一个词或词的一部分Token 上限定义最大提示长度、输出长度与会话记忆在多模态模型中扩展为视觉 token,用于图像与视频输入Token 的位置与邻近关系影响概念之间关联的强弱

准备好开始创作了吗?

执导场景、设计角色、完成整部影片

一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。

对比与差异

对比与差异

Compared with related concepts

Token 与词、字符及参数相关但不同。词是 token 所近似的人类语言单位;字符是 token 所聚合的字母级原始单位;参数是模型神经网络内部习得的权重,是一个完全不同的概念,在随意讨论中有时会与 token 混淆。模型的参数量描述其规模与学习容量,而其 token 数描述它一次能处理的文本长度:一个参数更多的模型,未必就拥有更大的上下文窗口,而更大的上下文窗口也并不意味着模型有更多知识或能力。这一区别在评估 AI 工具时很重要:参数量衡量模型知道什么;token 上限衡量它一次能关注多少。


可以这样理解…

把 token 想象成一幅极大拼图中的一块。一个词往往是一块,但一个不寻常或技术性的词可能需要被拆成两三块更小的块,模型再从上下文中把它们拼成意义。模型一次只能在桌面上放一定数量的块:这就是它的上下文窗口。如果你往桌上倒太多块,最早的那些就会从边缘滑落、被遗忘。这就是为什么长提示有时会忘记那些远离当前生成点所指定的指令:那些 token 已经移出了活跃的注意空间。


实用提示

为 AI 视频或图像生成编写提示时,把开头的二三十个 token 当作黄金地段。先写最关键的创意决策(主体、摄影机处理、视觉风格、布光),再加入次要细节,如背景元素、色温或氛围。模型对靠前 token 的加权比靠后的更一致,而一段把关键指令埋在第三段的长提示,往往会在那条指令上执行不足,却忠实地遵循早先描述的细节。如果你的提示一向很长,试着做一遍精简,删去任何能从上下文推断出的措辞,把 token 腾给模型无法猜到的、真正具体的创意方向。

类型与变体

Token 根据所用的模态与上下文呈现不同形式。文本 token 是标准形式:由分词器从输入文本产生、并由模型注意力层顺序处理的语言单位。输入 token 是用户作为提示一部分提交的;输出 token 是模型作为响应生成的。在商业 AI API 中,这两者通常定价不同,因为输出生成在计算上比输入处理更密集。视觉 token 把这一概念扩展到图像数据:图像被分割为固定尺寸的空间块,每一块被转换为一个数值向量,与文本 token 并列被模型处理。在视频模型中,时间 token 表示帧序列,在空间块结构上加入了时间维度。特殊 token(如标记序列开头或结尾的 token,或不同内容类型之间的分隔 token)被模型在内部用于管理上下文结构。

准备好在 Morphic 里做第一个场景了吗?

试用 Morphic

常见使用场景

在通过 API 使用 AI 模型时,Token 意识最为直接相关,,使用按 token 计费,而上下文窗口上限要求对提示长度与对话历史进行细致管理。构建 AI 驱动应用的开发者必须在一个会话内追踪累计 token 数,以避免超出上下文上限并管理 API 成本。对于直接使用 AI 生成界面的创作者而言,当构建冗长、详尽的提示时,token 的考量会变得相关,,尤其是带有多个主体、特定风格参考与详细技术指令的复杂场景,,其中存在提示后段内容被模型欠关注的风险。理解 token 分配,也有助于解释为什么多主体场景有时会对某个主体描述不足:如果提示花了大量 token 详细确立第一个主体,留给描述第二个的 token 就更少,导致画面各部分生成质量不均。

准备好开始创作了吗?

执导场景、设计角色、完成整部影片

一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。

常见问题(FAQ)

AI 中的 Token 是什么,它为何重要?

Token 是 AI 模型处理的基本文本单位。模型并不读取原始字符或完整单词,而是处理由分词器把输入文本切分为标准化单位所产生的 token 序列。Token 数之所以重要,是因为它决定了提示长度上限、会话记忆大小与 API 使用成本;还因为模型在一个非常长的 token 序列中对内容的关注能力,会对远离当前生成点的内容下降,从而影响长提示或复杂提示的生成质量。

一个 token 大致相当于多少个词?

一条好用的经验法则是:100 个 token 大约对应 75 个英文单词,即平均每个单词约对应 1.33 个 token。像 the 或 and 这样的常见短词通常是单个 token,而较长或较生僻的词可能被拆成两个或更多 token。标点、空格与特殊字符也会消耗 token,因此实际的词与 token 比例会随写作风格、词汇复杂度以及模型所用的具体分词方案而变化。

什么是上下文窗口,它与 token 有何关系?

上下文窗口是 AI 模型在单个会话中能处理的最大 token 数:它的工作记忆。所有输入 token(提示)与输出 token(响应)都计入这一上限。当对话或提示超出上下文窗口时,较早的内容会被截断或降权,意味着模型失去对此前所给信息的访问。上下文窗口的大小在不同模型之间差异显著,从较小系统中的几千 token,到前沿模型中的数十万 token。

图像这类视觉输入也会消耗 token 吗?

会:在接受图像输入的多模态模型中,图像被分割为空间块,每一块被转换为一个视觉 token。一张典型图像可能产生数百个视觉 token,具体取决于其分辨率与模型的块尺寸。更高分辨率的图像消耗更多 token,这意味着在多模态提示中使用高分辨率参考图,会显著减少留给文本指令的 token 预算。在使用视觉输入时留意图像分辨率,有助于在以图像为条件的生成工作流中管理上下文窗口的使用。

为什么 AI 模型有时会忽略长提示末尾附近的指令?

模型顺序处理 token 并在整个序列中分配注意力,但这种注意力并非完全均匀。提示开头附近的内容,以及紧邻生成点之前的内容,往往获得最一致的注意。埋在长提示深处的指令(距离开头数百个 token)被欠权重的风险更大,尤其在提示接近模型上下文窗口上限时。把最关键的创意指令放在提示靠前位置,并保持提示简洁,可减弱这一效应。

输入 token 与输出 token 有什么区别?

输入 token 是构成提交给模型的提示的 token:用户提供的所有文本、图像块或其他内容。输出 token 是模型作为响应生成的 token。在商业 AI API 中,这两者通常定价不同,因为生成每一个输出 token 都需要运行一次完整的模型前向传递,这在计算上比处理输入 token 更密集。对于输出较长的生成任务(如生成完整剧本或冗长的创意方案),输出 token 成本可能显著超过输入 token 成本。

在编写视频生成提示时,我该如何看待 token?

对视频与图像生成提示而言,token 意识意味着先写最重要的创意与构图决策(主体取景、摄影机运动、视觉风格、布光),再加入次要细节。模型对靠前 token 的关注最一致,因此把关键指令埋在密集段落的中间或末尾,会带来执行不一致的风险。力求简洁、精确的提示,把创意细节前置,避免那些消耗 token 却不添加新信息的冗余措辞。正因如此,更短、结构良好的提示往往胜过更长、更面面俱到的提示。

Token 与模型参数是一回事吗?

不是:token 与参数描述的是 AI 模型完全不同的方面。Token 是模型在推理时处理的文本或视觉输入单位;它们描述使用过程中进出模型的内容。参数是存储在模型神经网络内部、习得的数值权重,编码其知识与能力;它们描述模型知道什么、如何处理信息。参数更多的模型拥有更多习得容量,而 token 上下文窗口更大的模型一次能处理更多信息:这是两个独立的属性,在不同模型之间各自变化。

Can't find what you are looking for?
Contact us and let us know.
bg