Question 1

AI 中的 Token 是什么,它为何重要?

Accepted Answer

Token 是 AI 模型处理的基本文本单位。模型并不读取原始字符或完整单词,而是处理由分词器把输入文本切分为标准化单位所产生的 token 序列。Token 数之所以重要,是因为它决定了提示长度上限、会话记忆大小与 API 使用成本;还因为模型在一个非常长的 token 序列中对内容的关注能力,会对远离当前生成点的内容下降,从而影响长提示或复杂提示的生成质量。

Question 2

一个 token 大致相当于多少个词?

Accepted Answer

一条好用的经验法则是:100 个 token 大约对应 75 个英文单词,即平均每个单词约对应 1.33 个 token。像 the 或 and 这样的常见短词通常是单个 token,而较长或较生僻的词可能被拆成两个或更多 token。标点、空格与特殊字符也会消耗 token,因此实际的词与 token 比例会随写作风格、词汇复杂度以及模型所用的具体分词方案而变化。

Question 3

什么是上下文窗口,它与 token 有何关系?

Accepted Answer

上下文窗口是 AI 模型在单个会话中能处理的最大 token 数:它的工作记忆。所有输入 token(提示)与输出 token(响应)都计入这一上限。当对话或提示超出上下文窗口时,较早的内容会被截断或降权,意味着模型失去对此前所给信息的访问。上下文窗口的大小在不同模型之间差异显著,从较小系统中的几千 token,到前沿模型中的数十万 token。

Question 4

图像这类视觉输入也会消耗 token 吗?

Accepted Answer

会:在接受图像输入的多模态模型中,图像被分割为空间块,每一块被转换为一个视觉 token。一张典型图像可能产生数百个视觉 token,具体取决于其分辨率与模型的块尺寸。更高分辨率的图像消耗更多 token,这意味着在多模态提示中使用高分辨率参考图,会显著减少留给文本指令的 token 预算。在使用视觉输入时留意图像分辨率,有助于在以图像为条件的生成工作流中管理上下文窗口的使用。

Question 5

为什么 AI 模型有时会忽略长提示末尾附近的指令?

Accepted Answer

模型顺序处理 token 并在整个序列中分配注意力,但这种注意力并非完全均匀。提示开头附近的内容,以及紧邻生成点之前的内容,往往获得最一致的注意。埋在长提示深处的指令(距离开头数百个 token)被欠权重的风险更大,尤其在提示接近模型上下文窗口上限时。把最关键的创意指令放在提示靠前位置,并保持提示简洁,可减弱这一效应。

Question 6

输入 token 与输出 token 有什么区别?

Accepted Answer

输入 token 是构成提交给模型的提示的 token:用户提供的所有文本、图像块或其他内容。输出 token 是模型作为响应生成的 token。在商业 AI API 中,这两者通常定价不同,因为生成每一个输出 token 都需要运行一次完整的模型前向传递,这在计算上比处理输入 token 更密集。对于输出较长的生成任务(如生成完整剧本或冗长的创意方案),输出 token 成本可能显著超过输入 token 成本。

Question 7

在编写视频生成提示时,我该如何看待 token?

Accepted Answer

对视频与图像生成提示而言,token 意识意味着先写最重要的创意与构图决策(主体取景、摄影机运动、视觉风格、布光),再加入次要细节。模型对靠前 token 的关注最一致,因此把关键指令埋在密集段落的中间或末尾,会带来执行不一致的风险。力求简洁、精确的提示,把创意细节前置,避免那些消耗 token 却不添加新信息的冗余措辞。正因如此,更短、结构良好的提示往往胜过更长、更面面俱到的提示。

Question 8

Token 与模型参数是一回事吗?

Accepted Answer

不是:token 与参数描述的是 AI 模型完全不同的方面。Token 是模型在推理时处理的文本或视觉输入单位;它们描述使用过程中进出模型的内容。参数是存储在模型神经网络内部、习得的数值权重,编码其知识与能力;它们描述模型知道什么、如何处理信息。参数更多的模型拥有更多习得容量,而 token 上下文窗口更大的模型一次能处理更多信息:这是两个独立的属性,在不同模型之间各自变化。

Token(令牌)

Token(令牌)是什么？

执导场景、设计角色、完成整部影片

类型与变体

准备好在 Morphic 里做第一个场景了吗？

常见使用场景

执导场景、设计角色、完成整部影片

常见问题（FAQ）