Question 1

AI 中的 Transformer 模型是什么?

Accepted Answer

Transformer 是一类神经网络架构,它使用一种被称为自注意力的机制处理数据序列(文本、图像块、视频帧),同时计算输入中所有元素之间的关系,而非按序计算。Transformer 最初为语言任务开发,如今已成为 AI 生成中的主导架构,支撑着大多数最先进的文生图与文生视频模型。它能捕捉长程依赖、扩展到大参数规模,并流畅地处理复杂的关系型提示,这些能力使其成为现代 AI 生成能力的基础。

Question 2

什么是自注意力,它为什么重要?

Accepted Answer

自注意力是 Transformer 模型的核心机制。对于输入序列中的每个元素,模型会计算注意力权重,表达该元素在构造自身表征时应当对其他每个元素施加多少关注。这让模型能够同时理解输入各部分之间的关系:提示开头的词如何与结尾的词关联,或图像某一区域的光线如何与整体场景构图关联。捕捉这些长程关系的能力,正是基于 Transformer 的生成模型在处理复杂、多元素提示并产出全局流畅输出方面,比那些局部处理信息的架构更有效的原因。

Question 3

什么是扩散 Transformer,它与早期生成架构有何不同?

Accepted Answer

扩散 Transformer(DiT 模型)把 Transformer 的自注意力机制应用到生成过程本身:把图像块或视频 token 当作注意力所作用的序列,而不是用卷积 U-Net 主干做生成、仅在输入端用一个 Transformer 文本编码器。这会在生成内容中产出更好的全局一致性,因为在整个生成过程中,每个空间区域都关注其他每个区域,从而在复杂场景中实现更一致的光照、结构与细节。Sora 与 FLUX 是扩散 Transformer 架构的突出代表,代表着当前生成质量的前沿。

Question 4

为什么更大的 Transformer 模型通常产出更好的输出?

Accepted Answer

Transformer 的性能与参数量呈一种有充分记录的关系:更大的模型,用更多数据、更多参数训练,会持续产出质量更高、更流畅、对语境更敏感的输出。这是因为更多参数让模型能学到并表征其训练数据与输入中更复杂的关系。自注意力机制建模所有输入元素之间关系的能力,意味着额外的参数会转化为对提示元素如何彼此关联更细致的理解,产出能更好反映所指定创作意图全部复杂度的输出。

Question 5

理解 Transformer 如何帮助我写出更好的提示?

Accepted Answer

由于 Transformer 模型通过自注意力同时处理提示的所有部分,它们本就是为理解关系结构而建立的:即提示的一个元素如何与其他元素关联。这意味着写成流畅描述、表达各元素之间关系的提示,往往比单纯罗列属性的提示产出更具全局一致性的输出。指明主体如何与环境关联、光线质感如何与情绪相连、各构图元素如何协同,会给模型的注意力机制提供更丰富的关系信息,产出更整合、更流畅的生成结果。

Question 6

所有现代 AI 生成模型都基于 Transformer 吗?

Accepted Answer

对于前沿生成模型,主导趋势强烈倾向于基于 Transformer 的架构,尽管该领域仍在不断演进。在文生图与文生视频生成中,基于 Transformer 的文本编码器近乎普遍,而扩散 Transformer 架构已成为质量最前沿模型的首选设计。一些模型使用把 Transformer 组件与卷积元素结合起来的混合架构。包括状态空间模型在内的替代架构,作为可能更高效的方案正在被积极研究,但 Transformer 目前定义着大多数生产级生成系统的基线架构。

Question 7

Transformer 模型与 CLIP 之间是什么关系?

Accepted Answer

CLIP 是由 OpenAI 训练的一个基于 Transformer 的模型,用于对齐文本与图像表征,通过在图像，文本对上的对比训练,学会把文本描述与视觉内容关联起来。许多文生图生成系统使用 CLIP 的文本编码器(或类似的基于 Transformer 的文本编码器)处理提示,并构建用于条件化生成过程的文本表征。因此,CLIP 是许多生成模型流程中的一个重要组件,而非生成模型本身:它使用其 Transformer 架构构建丰富、具语境感知的文本表征,把提示语言翻译成生成系统可以据以条件化的形式。

Question 8

Transformer 处理视频生成与处理图像生成有何不同?

Accepted Answer

视频生成把 Transformer 的 token 序列从空间图像块,扩展到既表示空间位置又表示时间位置(在一段帧序列内)的时空 token。视频生成 Transformer 不只关注单帧内部的空间关系,而是同时关注跨越空间与时间的关系,从而实现一致的运动、跨帧流畅的主体外观,以及整段片段内的全局场景延续性。正是这种时间上的注意力,让领先的视频模型能够在数秒生成素材中维持角色外观、光照一致性与运动一致性:这些能力源自 Transformer 架构对生成全部时空范围内关系建模的能力。

Transformer 模型(Transformer Models)

Transformer 模型(Transformer Models)是什么？

执导场景、设计角色、完成整部影片

类型与变体

准备好在 Morphic 里做第一个场景了吗？

常见使用场景

执导场景、设计角色、完成整部影片

常见问题（FAQ）