Transformer 模型(Transformer Models)
Transformer 模型(Transformer Models)是什么?
Transformer 是驱动大多数现代生成模型的一类 AI 架构:它的工作方式是让输入的每一部分同时关注其他每一部分,这正是 AI 能够理解复杂、微妙的提示而非逐词阅读它们的原因。
一图看懂
- 别称
- Attention modelSelf-attention architectureDiffusion transformerDiT model
- 主要用途
- 处理文本提示以构建用于条件化生成的丰富语境表征通过扩散 transformer 架构生成图像与视频在生成内容中捕捉长程关系与全局一致性支撑大多数最先进的图像、视频与语言 AI 系统
- Key features
- 自注意力同时处理所有输入元素,而非按序处理捕捉序列式架构所错失的长程依赖能有效扩展到极大的参数规模,并随模型增大而改善支撑包括 Sora、FLUX 及大多数主流平台在内的领先生成模型
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
Transformer 模型最直接的对比对象,是它在序列处理任务上所取代的循环神经网络架构。循环网络(尤其是 LSTM 与 GRU)逐步处理序列,维持一个把信息向前传递的隐藏状态,但难以在长序列中保留长程依赖。Transformer 放弃了这种序列式处理,转而在整条序列上做并行自注意力,同时捕捉所有元素之间的关系。这让 Transformer 在长程一致性上大幅优于前者,并在训练中显著更易并行化,从而支撑起定义现代 AI 能力的超大模型规模。Transformer 也不同于卷积神经网络:后者通过局部感受野处理空间数据,感受野通过堆叠逐渐变大,这对许多计算机视觉任务有用,但在捕捉整张图像的全局空间关系上不如 Transformer 有效。
可以这样理解…
想象一个由若干编辑组成的委员会在评审一份书稿。循环架构就像一位编辑从头到尾通读文本,在读到后文时努力回忆前文:等他们读到最后一章,开篇的细节已从即时记忆中淡去。Transformer 则像每位编辑同时阅读每一个段落,彼此询问每一段与自己所负责部分有何关联。其结果是对各部分如何相互关联有了丰富得多、也一致得多的理解,因为没有任何一部分文本是与其他部分隔离处理的。这正是自注意力所做的:它让每个元素在构造自身表征时,可以直接咨询其他每一个元素。
实用提示
知道现代生成模型基于 Transformer,有助于校准如何写提示。由于自注意力允许模型把提示的所有部分相互关联,一个结构良好、清晰指定各元素之间关系的提示(主体如何与环境关联、光线如何与情绪关联),会比一串彼此脱节的属性被处理得更流畅。写成流畅描述、表达各元素如何协同的提示,往往比单纯罗列所期望特征的提示产出更具全局一致性的输出,正是因为 Transformer 的注意力机制本就是为理解关系结构而建立的。
类型与变体
Transformer 架构在 AI 生成领域已演化出几种不同形态。仅编码器(encoder-only)Transformer,如 BERT 与 CLIP,处理输入序列以构建用于理解与检索任务的丰富表征。仅解码器(decoder-only)Transformer,包括 GPT 系列语言模型,通过从所有先前 token 预测下一个 token 来自回归地生成序列。编码器,解码器(encoder-decoder)Transformer 兼具两个组件,处理一个输入序列并生成一个输出序列,这正是奠基论文中所描述的原始架构。对图像与视频生成而言,近年来最重要的进展是扩散 Transformer:它用一个对空间图像块或视频帧 token 施加自注意力的 Transformer,取代了早期扩散模型的卷积 U-Net 主干。这种架构比卷积方法实现了更好的全局一致性与更可扩展的训练,如今已成为前沿图像与视频生成模型的主导设计。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
Transformer 模型几乎支撑着所有当代 AI 生成与语言工具。文生图与文生视频生成系统使用基于 Transformer 的文本编码器处理提示,并且越来越多地使用基于 Transformer 的生成主干来产出视觉内容。用于创意写作、编剧与规划的大语言模型,完全建立在 Transformer 架构之上。同时接受文本与图像输入的多模态模型,使用 Transformer 架构通过统一的注意力机制处理来自两种模态的 token。对 Morphic 上的 AI 视频制作工作流而言,所支持目录中的每个模型(Runway Gen-4、Kling、Sora、Veo 等)都建立在以 Transformer 为基础的架构之上,这意味着塑造现代生成质量的提示敏感度、全局一致性与语境响应能力,全部直接源自 Transformer 架构。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。