Transformer 模型(Transformer Models)
Transformer 模型(Transformer Models)是什么?
Transformer 是驱动大多数现代生成模型的一类 AI 架构:它的工作方式是让输入的每一部分同时关注其他每一部分,这正是 AI 能够理解复杂、微妙的提示而非逐词阅读它们的原因。
一图看懂
- 别称
- Attention modelSelf-attention architectureDiffusion transformerDiT model
- 主要用途
- 处理文本提示以构建用于条件化生成的丰富语境表征通过扩散 transformer 架构生成图像与视频在生成内容中捕捉长程关系与全局一致性支撑大多数最先进的图像、视频与语言 AI 系统
- Key features
- 自注意力同时处理所有输入元素,而非按序处理捕捉序列式架构所错失的长程依赖能有效扩展到极大的参数规模,并随模型增大而改善支撑包括 Sora、FLUX 及大多数主流平台在内的领先生成模型
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
Transformer 模型最直接的对比对象,是它在序列处理任务上所取代的循环神经网络架构。循环网络(尤其是 LSTM 与 GRU)逐步处理序列,维持一个把信息向前传递的隐藏状态,但难以在长序列中保留长程依赖。Transformer 放弃了这种序列式处理,转而在整条序列上做并行自注意力,同时捕捉所有元素之间的关系。这让 Transformer 在长程一致性上大幅优于前者,并在训练中显著更易并行化,从而支撑起定义现代 AI 能力的超大模型规模。Transformer 也不同于卷积神经网络:后者通过局部感受野处理空间数据,感受野通过堆叠逐渐变大,这对许多计算机视觉任务有用,但在捕捉整张图像的全局空间关系上不如 Transformer 有效。
可以这样理解…
想象一个由若干编辑组成的委员会在评审一份书稿。循环架构就像一位编辑从头到尾通读文本,在读到后文时努力回忆前文:等他们读到最后一章,开篇的细节已从即时记忆中淡去。Transformer 则像每位编辑同时阅读每一个段落,彼此询问每一段与自己所负责部分有何关联。其结果是对各部分如何相互关联有了丰富得多、也一致得多的理解,因为没有任何一部分文本是与其他部分隔离处理的。这正是自注意力所做的:它让每个元素在构造自身表征时,可以直接咨询其他每一个元素。
实用提示
知道现代生成模型基于 Transformer,有助于校准如何写提示。由于自注意力允许模型把提示的所有部分相互关联,一个结构良好、清晰指定各元素之间关系的提示(主体如何与环境关联、光线如何与情绪关联),会比一串彼此脱节的属性被处理得更流畅。写成流畅描述、表达各元素如何协同的提示,往往比单纯罗列所期望特征的提示产出更具全局一致性的输出,正是因为 Transformer 的注意力机制本就是为理解关系结构而建立的。
类型与变体
Transformer 架构在 AI 生成领域已演化出几种不同形态。仅编码器(encoder-only)Transformer,如 BERT 与 CLIP,处理输入序列以构建用于理解与检索任务的丰富表征。仅解码器(decoder-only)Transformer,包括 GPT 系列语言模型,通过从所有先前 token 预测下一个 token 来自回归地生成序列。编码器,解码器(encoder-decoder)Transformer 兼具两个组件,处理一个输入序列并生成一个输出序列,这正是奠基论文中所描述的原始架构。对图像与视频生成而言,近年来最重要的进展是扩散 Transformer:它用一个对空间图像块或视频帧 token 施加自注意力的 Transformer,取代了早期扩散模型的卷积 U-Net 主干。这种架构比卷积方法实现了更好的全局一致性与更可扩展的训练,如今已成为前沿图像与视频生成模型的主导设计。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
Transformer 模型几乎支撑着所有当代 AI 生成与语言工具。文生图与文生视频生成系统使用基于 Transformer 的文本编码器处理提示,并且越来越多地使用基于 Transformer 的生成主干来产出视觉内容。用于创意写作、编剧与规划的大语言模型,完全建立在 Transformer 架构之上。同时接受文本与图像输入的多模态模型,使用 Transformer 架构通过统一的注意力机制处理来自两种模态的 token。对 Morphic 上的 AI 视频制作工作流而言,所支持目录中的每个模型(Runway Gen-4、Kling、Sora、Veo 等)都建立在以 Transformer 为基础的架构之上,这意味着塑造现代生成质量的提示敏感度、全局一致性与语境响应能力,全部直接源自 Transformer 架构。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
Transformer 是一类神经网络架构,它使用一种被称为自注意力的机制处理数据序列(文本、图像块、视频帧),同时计算输入中所有元素之间的关系,而非按序计算。Transformer 最初为语言任务开发,如今已成为 AI 生成中的主导架构,支撑着大多数最先进的文生图与文生视频模型。它能捕捉长程依赖、扩展到大参数规模,并流畅地处理复杂的关系型提示,这些能力使其成为现代 AI 生成能力的基础。
自注意力是 Transformer 模型的核心机制。对于输入序列中的每个元素,模型会计算注意力权重,表达该元素在构造自身表征时应当对其他每个元素施加多少关注。这让模型能够同时理解输入各部分之间的关系:提示开头的词如何与结尾的词关联,或图像某一区域的光线如何与整体场景构图关联。捕捉这些长程关系的能力,正是基于 Transformer 的生成模型在处理复杂、多元素提示并产出全局流畅输出方面,比那些局部处理信息的架构更有效的原因。
扩散 Transformer(DiT 模型)把 Transformer 的自注意力机制应用到生成过程本身:把图像块或视频 token 当作注意力所作用的序列,而不是用卷积 U-Net 主干做生成、仅在输入端用一个 Transformer 文本编码器。这会在生成内容中产出更好的全局一致性,因为在整个生成过程中,每个空间区域都关注其他每个区域,从而在复杂场景中实现更一致的光照、结构与细节。Sora 与 FLUX 是扩散 Transformer 架构的突出代表,代表着当前生成质量的前沿。
Transformer 的性能与参数量呈一种有充分记录的关系:更大的模型,用更多数据、更多参数训练,会持续产出质量更高、更流畅、对语境更敏感的输出。这是因为更多参数让模型能学到并表征其训练数据与输入中更复杂的关系。自注意力机制建模所有输入元素之间关系的能力,意味着额外的参数会转化为对提示元素如何彼此关联更细致的理解,产出能更好反映所指定创作意图全部复杂度的输出。
由于 Transformer 模型通过自注意力同时处理提示的所有部分,它们本就是为理解关系结构而建立的:即提示的一个元素如何与其他元素关联。这意味着写成流畅描述、表达各元素之间关系的提示,往往比单纯罗列属性的提示产出更具全局一致性的输出。指明主体如何与环境关联、光线质感如何与情绪相连、各构图元素如何协同,会给模型的注意力机制提供更丰富的关系信息,产出更整合、更流畅的生成结果。
对于前沿生成模型,主导趋势强烈倾向于基于 Transformer 的架构,尽管该领域仍在不断演进。在文生图与文生视频生成中,基于 Transformer 的文本编码器近乎普遍,而扩散 Transformer 架构已成为质量最前沿模型的首选设计。一些模型使用把 Transformer 组件与卷积元素结合起来的混合架构。包括状态空间模型在内的替代架构,作为可能更高效的方案正在被积极研究,但 Transformer 目前定义着大多数生产级生成系统的基线架构。
CLIP 是由 OpenAI 训练的一个基于 Transformer 的模型,用于对齐文本与图像表征,通过在图像,文本对上的对比训练,学会把文本描述与视觉内容关联起来。许多文生图生成系统使用 CLIP 的文本编码器(或类似的基于 Transformer 的文本编码器)处理提示,并构建用于条件化生成过程的文本表征。因此,CLIP 是许多生成模型流程中的一个重要组件,而非生成模型本身:它使用其 Transformer 架构构建丰富、具语境感知的文本表征,把提示语言翻译成生成系统可以据以条件化的形式。
视频生成把 Transformer 的 token 序列从空间图像块,扩展到既表示空间位置又表示时间位置(在一段帧序列内)的时空 token。视频生成 Transformer 不只关注单帧内部的空间关系,而是同时关注跨越空间与时间的关系,从而实现一致的运动、跨帧流畅的主体外观,以及整段片段内的全局场景延续性。正是这种时间上的注意力,让领先的视频模型能够在数秒生成素材中维持角色外观、光照一致性与运动一致性:这些能力源自 Transformer 架构对生成全部时空范围内关系建模的能力。