分词(Tokenization)
分词(Tokenization)是什么?
分词是 AI 模型在读取你的文本之前把它切成小块的方式:模型把单词拆成可数学处理的小块的做法。
一图看懂
- 别称
- 文本分词子词分词Byte-pair encoding (BPE)词法分析分词(英式拼写 tokenisation)
- 主要用途
- 把原始文本转换为数值 token 序列供 AI 模型处理通过子词分解处理生僻或不寻常的词在模型架构中平衡词表大小与序列长度诊断由意外 token 切分引起的提示解读问题
- Key features
- 在模型处理之前把文本转换为整数 token 序列子词方案通过把生僻词分解为熟悉片段来处理它们Token 边界影响模型如何关联相关术语与概念语言、拼写与格式选择与分词器行为相互作用
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
分词与语言模型中的词表概念不同,但紧密相关。模型的词表是它所认识的全部 token 类型:分词器能产出、且模型能处理的、固定的整数索引列表及其对应的文本片段。分词是把输入文本映射为从这一词表中抽取的序列的过程。词表更大的模型能把更多不同概念表示为单个 token,而词表较小的模型可能把相同概念拆分到多个 token 上。分词也不同于嵌入(处理的下一步):嵌入把每个 token 整数转换为一个编码其含义的高维数值向量,而分词仅把文本转换为一串不编码任何语义信息的整数索引。
可以这样理解…
想象你在读一封手写信,有些词完全清晰,另一些则被涂污或以陌生字体写就。你的大脑把清晰的词作为整体单位处理,瞬间就能理解。对被涂污或陌生的词,你会逐个字母拆解,从你能辨认的片段中拼凑出最佳猜测。这大致就是子词分词的运作方式:熟悉的常见词被作为单个 token 处理;不寻常、生僻或畸形的词被拆成其组成部分,再从熟悉的子词片段中重建,模型尽其所能从这些部分推断出预期的含义。
实用提示
当某个提示术语没有产出预期结果时,考虑问题是否出在分词而非模型知识上。试着把不寻常的拼写、创意复合词或技术行话替换为更标准的替代说法,它们更可能被分成单个、表示充分的 token。例如,如果对某种冷门技法的风格引用没有奏效,试着用平实的词语描述该技法的视觉特质,而不是使用它的名字:描述性语言可能比名字本身分词得更可靠、关联得更稳定。这种从标签到描述的重构,是针对分词相关解读失败最有效的提示调试技巧之一。
类型与变体
主要的分词方式代表了在词表大小、序列长度与新词处理之间的不同权衡。词级分词把每个不同的词映射为单个 token,产出短、直觉易懂的序列,但需要庞大的词表,且对未知词完全失效。字符级分词以单个字符作为 token,把词表压缩到几百项,但产出非常长、处理代价高的序列。子词分词是现代语言模型中的主流方式,介于两者之间:byte-pair encoding 迭代地把高频字符对合并为复合 token;WordPiece 使用一个概率性准则来决定合并;SentencePiece 是一种与语言无关的实现,在分词前把输入视作原始字节流,使其在不同语言与字符集之间更稳健。每种方案产出 token 粒度、词表覆盖与序列长度的不同平衡,进而影响模型处理提示的效率,以及它如何处理熟悉与新词之间的边界。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
分词支撑着与基于文本的 AI 系统的每一次交互,在从对话式 AI 到生成提示的所有语言模型使用中于背景里无形运作。当排查提示表现时,它会变得明确相关:如果某个特定术语尽管在提示中清晰出现,却被忽略、被误解,或与一个无关概念混淆,分词很可能是原因。在模型 API 之上构建 AI 应用的从业者,需要在代码中实现分词器,以准确估算 token 数,用于成本管理与上下文窗口规划。对 AI 视频生成创作者而言,分词意识是一项诊断技能:理解为什么一个不寻常的词可能无法引出预期的视觉关联,有助于把提示修订引向那些模型的分词器与训练共同处理得更可靠的术语。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。