模型架构
模型架构是什么?
模型架构是 AI'大脑'的蓝图:它描述网络有多少层、每一层执行哪类计算,以及信息如何从一端传到另一端。不同的蓝图让 AI 擅长不同的任务。
一图看懂
- 别称
- 网络架构神经网络架构模型设计
- 主要用途
- 界定 AI 能力图像与视频生成语言理解模型选择与评估
- 常用工具
- PyTorchTensorFlowHugging face transformersJAX
- 相关术语
- TransformerDiffusion modelGANModel trainingLatent space
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
模型架构与模型权重的对比:架构是固定的蓝图,即层与运算的排列。权重是训练中习得、填入该蓝图的数值。你可以有两个架构完全相同但权重完全不同(因而行为也完全不同)的模型,正如两栋户型相同的建筑可以被完全不同地布置与装饰。
可以这样理解…
把模型架构想象成一座工厂的设计。架构规定了有多少条流水线、每条线上摆放什么机器、材料以何种顺序经过它们。那些机器的具体设置与校准(通过训练习得)就如同模型权重。工厂设计(架构)决定了它能制造什么;校准(权重)决定了它制造得有多好。
实用提示
在为某项特定任务评估 AI 工具时,不要只看营销说辞,要查清底层模型属于哪个架构家族:扩散模型、Transformer 与 GAN 在推理速度、输出多样性与微调灵活性上有实质性不同的权衡,这些都会影响你的制作工作流。
类型与变体
与 AI 媒体工具相关的主要架构家族包括:卷积神经网络(CNN),曾主导图像识别与早期生成任务;生成对抗网络(GAN),在对抗式训练循环中将生成器与判别器配对;变分自编码器(VAE),学习数据的压缩潜在表征;Transformer 架构,使用自注意力机制,并构成大多数现代语言与多模态模型的骨干;以及扩散架构,将数据生成建模为一个习得的去噪过程。结合这些家族要素的混合架构(例如 Stable Diffusion 所用的潜在扩散模型)正变得越来越常见。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
在选择或比较用于图像生成、视频合成、音频处理或语言任务的 AI 工具时,模型架构都是需要考虑的因素。例如,理解 Stable Diffusion 使用潜在扩散架构,就能解释为何它可以在消费级 GPU 上运行(扩散过程在压缩的潜在空间而非完整像素空间中进行)。在微调模型时架构同样重要:不同架构接受不同的微调方法,而像 LoRA(低秩自适应)这样的技术正是围绕 Transformer 层的特定结构设计的。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。