模型架构
模型架构是什么?
模型架构是 AI'大脑'的蓝图:它描述网络有多少层、每一层执行哪类计算,以及信息如何从一端传到另一端。不同的蓝图让 AI 擅长不同的任务。
一图看懂
- 别称
- 网络架构神经网络架构模型设计
- 主要用途
- 界定 AI 能力图像与视频生成语言理解模型选择与评估
- 常用工具
- PyTorchTensorFlowHugging face transformersJAX
- 相关术语
- TransformerDiffusion modelGANModel trainingLatent space
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
模型架构与模型权重的对比:架构是固定的蓝图,即层与运算的排列。权重是训练中习得、填入该蓝图的数值。你可以有两个架构完全相同但权重完全不同(因而行为也完全不同)的模型,正如两栋户型相同的建筑可以被完全不同地布置与装饰。
可以这样理解…
把模型架构想象成一座工厂的设计。架构规定了有多少条流水线、每条线上摆放什么机器、材料以何种顺序经过它们。那些机器的具体设置与校准(通过训练习得)就如同模型权重。工厂设计(架构)决定了它能制造什么;校准(权重)决定了它制造得有多好。
实用提示
在为某项特定任务评估 AI 工具时,不要只看营销说辞,要查清底层模型属于哪个架构家族:扩散模型、Transformer 与 GAN 在推理速度、输出多样性与微调灵活性上有实质性不同的权衡,这些都会影响你的制作工作流。
类型与变体
与 AI 媒体工具相关的主要架构家族包括:卷积神经网络(CNN),曾主导图像识别与早期生成任务;生成对抗网络(GAN),在对抗式训练循环中将生成器与判别器配对;变分自编码器(VAE),学习数据的压缩潜在表征;Transformer 架构,使用自注意力机制,并构成大多数现代语言与多模态模型的骨干;以及扩散架构,将数据生成建模为一个习得的去噪过程。结合这些家族要素的混合架构(例如 Stable Diffusion 所用的潜在扩散模型)正变得越来越常见。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
在选择或比较用于图像生成、视频合成、音频处理或语言任务的 AI 工具时,模型架构都是需要考虑的因素。例如,理解 Stable Diffusion 使用潜在扩散架构,就能解释为何它可以在消费级 GPU 上运行(扩散过程在压缩的潜在空间而非完整像素空间中进行)。在微调模型时架构同样重要:不同架构接受不同的微调方法,而像 LoRA(低秩自适应)这样的技术正是围绕 Transformer 层的特定结构设计的。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
不需要深入理解,但基本的了解有助于你认识一款工具的能力与局限。例如,知道某工具使用扩散架构,就能让你预期它相比基于 GAN 的工具会有更慢的推理时间,但更高的输出多样性。
Transformer 架构于 2017 年提出,使用一种称为自注意力的机制,使模型能够同时将输入的任意部分与任意其他部分相关联。这使它在理解长序列上的语境方面表现远胜从前,如今它已是语言、图像与视频 AI 中大多数顶尖模型的基础。
架构影响所生成图像的分辨率、协调性与多样性。扩散架构往往产出高质量、多样化的输出,但每次推理需要更多算力。GAN 更快,但可能出现模式崩溃,即模型反复产出相似的输出。
可以:许多视频生成模型通过添加时间维度来扩展基于图像的架构。例如,基于 Transformer 的视频模型将视频帧视为序列,并在空间与时间两个维度上应用注意力,以保持帧与帧之间的一致性。
潜在扩散模型在压缩的潜在空间而非直接在像素上执行扩散过程。这在保持输出质量的同时大幅降低了计算成本。Stable Diffusion 是最著名的例子,也正是高质量图像生成得以在消费级硬件上普及的原因。
架构决定了哪些微调方法适用。基于 Transformer 的模型很适合 LoRA 与 DreamBooth 这类技术。基于 CNN 的模型有不同的适配路径。某些架构还暴露出更多内部状态(例如注意力图),可被利用以在生成过程中实现更强的创作控制。