模型架构

模型架构是什么?

模型架构是 AI'大脑'的蓝图:它描述网络有多少层、每一层执行哪类计算,以及信息如何从一端传到另一端。不同的蓝图让 AI 擅长不同的任务。

一图看懂

别称
网络架构神经网络架构模型设计
主要用途
界定 AI 能力图像与视频生成语言理解模型选择与评估
常用工具
PyTorchTensorFlowHugging face transformersJAX
相关术语
TransformerDiffusion modelGANModel trainingLatent space

准备好开始创作了吗?

执导场景、设计角色、完成整部影片

一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。

对比与差异

对比与差异

Compared with related concepts

模型架构与模型权重的对比:架构是固定的蓝图,即层与运算的排列。权重是训练中习得、填入该蓝图的数值。你可以有两个架构完全相同但权重完全不同(因而行为也完全不同)的模型,正如两栋户型相同的建筑可以被完全不同地布置与装饰。


可以这样理解…

把模型架构想象成一座工厂的设计。架构规定了有多少条流水线、每条线上摆放什么机器、材料以何种顺序经过它们。那些机器的具体设置与校准(通过训练习得)就如同模型权重。工厂设计(架构)决定了它能制造什么;校准(权重)决定了它制造得有多好。


实用提示

在为某项特定任务评估 AI 工具时,不要只看营销说辞,要查清底层模型属于哪个架构家族:扩散模型、Transformer 与 GAN 在推理速度、输出多样性与微调灵活性上有实质性不同的权衡,这些都会影响你的制作工作流。

类型与变体

与 AI 媒体工具相关的主要架构家族包括:卷积神经网络(CNN),曾主导图像识别与早期生成任务;生成对抗网络(GAN),在对抗式训练循环中将生成器与判别器配对;变分自编码器(VAE),学习数据的压缩潜在表征;Transformer 架构,使用自注意力机制,并构成大多数现代语言与多模态模型的骨干;以及扩散架构,将数据生成建模为一个习得的去噪过程。结合这些家族要素的混合架构(例如 Stable Diffusion 所用的潜在扩散模型)正变得越来越常见。

准备好在 Morphic 里做第一个场景了吗?

试用 Morphic

常见使用场景

在选择或比较用于图像生成、视频合成、音频处理或语言任务的 AI 工具时,模型架构都是需要考虑的因素。例如,理解 Stable Diffusion 使用潜在扩散架构,就能解释为何它可以在消费级 GPU 上运行(扩散过程在压缩的潜在空间而非完整像素空间中进行)。在微调模型时架构同样重要:不同架构接受不同的微调方法,而像 LoRA(低秩自适应)这样的技术正是围绕 Transformer 层的特定结构设计的。

准备好开始创作了吗?

执导场景、设计角色、完成整部影片

一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。

常见问题(FAQ)

使用 AI 视频工具需要理解模型架构吗?

不需要深入理解,但基本的了解有助于你认识一款工具的能力与局限。例如,知道某工具使用扩散架构,就能让你预期它相比基于 GAN 的工具会有更慢的推理时间,但更高的输出多样性。

什么是 Transformer 架构,它为何如此重要?

Transformer 架构于 2017 年提出,使用一种称为自注意力的机制,使模型能够同时将输入的任意部分与任意其他部分相关联。这使它在理解长序列上的语境方面表现远胜从前,如今它已是语言、图像与视频 AI 中大多数顶尖模型的基础。

模型架构如何影响 AI 生成图像的质量?

架构影响所生成图像的分辨率、协调性与多样性。扩散架构往往产出高质量、多样化的输出,但每次推理需要更多算力。GAN 更快,但可能出现模式崩溃,即模型反复产出相似的输出。

同一架构能同时用于图像与视频生成吗?

可以:许多视频生成模型通过添加时间维度来扩展基于图像的架构。例如,基于 Transformer 的视频模型将视频帧视为序列,并在空间与时间两个维度上应用注意力,以保持帧与帧之间的一致性。

什么是潜在扩散架构?

潜在扩散模型在压缩的潜在空间而非直接在像素上执行扩散过程。这在保持输出质量的同时大幅降低了计算成本。Stable Diffusion 是最著名的例子,也正是高质量图像生成得以在消费级硬件上普及的原因。

架构选择如何影响微调与定制?

架构决定了哪些微调方法适用。基于 Transformer 的模型很适合 LoRA 与 DreamBooth 这类技术。基于 CNN 的模型有不同的适配路径。某些架构还暴露出更多内部状态(例如注意力图),可被利用以在生成过程中实现更强的创作控制。

Can't find what you are looking for?
Contact us and let us know.
bg