Question 1

使用 AI 视频工具需要理解模型架构吗?

Accepted Answer

不需要深入理解,但基本的了解有助于你认识一款工具的能力与局限。例如,知道某工具使用扩散架构,就能让你预期它相比基于 GAN 的工具会有更慢的推理时间,但更高的输出多样性。

Question 2

什么是 Transformer 架构,它为何如此重要?

Accepted Answer

Transformer 架构于 2017 年提出,使用一种称为自注意力的机制,使模型能够同时将输入的任意部分与任意其他部分相关联。这使它在理解长序列上的语境方面表现远胜从前,如今它已是语言、图像与视频 AI 中大多数顶尖模型的基础。

Question 3

模型架构如何影响 AI 生成图像的质量?

Accepted Answer

架构影响所生成图像的分辨率、协调性与多样性。扩散架构往往产出高质量、多样化的输出,但每次推理需要更多算力。GAN 更快,但可能出现模式崩溃,即模型反复产出相似的输出。

Question 4

同一架构能同时用于图像与视频生成吗?

Accepted Answer

可以:许多视频生成模型通过添加时间维度来扩展基于图像的架构。例如,基于 Transformer 的视频模型将视频帧视为序列,并在空间与时间两个维度上应用注意力,以保持帧与帧之间的一致性。

Question 5

什么是潜在扩散架构?

Accepted Answer

潜在扩散模型在压缩的潜在空间而非直接在像素上执行扩散过程。这在保持输出质量的同时大幅降低了计算成本。Stable Diffusion 是最著名的例子,也正是高质量图像生成得以在消费级硬件上普及的原因。

Question 6

架构选择如何影响微调与定制?

Accepted Answer

架构决定了哪些微调方法适用。基于 Transformer 的模型很适合 LoRA 与 DreamBooth 这类技术。基于 CNN 的模型有不同的适配路径。某些架构还暴露出更多内部状态(例如注意力图),可被利用以在生成过程中实现更强的创作控制。

模型架构

模型架构是什么？