扩散模型
扩散模型是什么?
扩散模型通过从随机噪声开始、一步步逐渐清理,学习生成图像,直到浮现出与文本提示词或其他指令相符的流畅画面。
一图看懂
- 别称
- 去噪扩散模型基于分数的生成模型潜空间扩散模型(指潜空间变体)
- 主要用途
- 文本到图像生成图像编辑与内补视频生成音频生成自定义模型微调
- 常用工具
- Stable diffusionDALL-e 2DALL-e 3MidjourneyImagenAI video generation platforms
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
扩散模型与 GAN 的对比:生成对抗网络(GAN)在扩散模型之前是主导性的图像生成架构。GAN 使用两个相互竞争的网络,,生成器和判别器,,以对抗方式训练。虽然能够产生清晰的图像,但 GAN 训练不稳定、容易出现模式崩溃,且输出多样性较低。扩散模型更稳定、产生更高的多样性、更可靠地处理条件化,并能随算力增加更好地扩展,这正是它们取代 GAN 成为高质量图像和视频生成主导方法的原因。
实用提示
使用基于扩散的工具时,去噪步数(在界面中常称为推理步数或采样步数)会直接影响质量和生成时间。更多的步数给模型更多机会去精炼图像,通常能产生更好的细节和一致性,但每一步都需要时间。对于快速的概念探索,较低的步数能迅速产出可用结果。对于最终成品质量的生成,较高的步数能从模型中提取更多细节。找到对你的用例而言能产生可接受质量的最低步数,是平衡速度与输出质量的一种实用做法。
类型与变体
像素空间扩散模型直接在全分辨率图像像素上运作,需要大量计算资源。潜空间扩散模型(包括 Stable Diffusion)在压缩后的潜空间中运作,而非直接处理像素,在保持输出质量的同时大幅降低了计算需求。基于分数的模型是一种在数学上相关的方法,通过不同的表述方式实现相似的生成质量。视频扩散模型将该架构扩展到时间维度,生成流畅的帧序列而非单张图像。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
在创意、商业和研究应用中根据文本提示词生成图像。通过基于扩散的生成来替换或扩展区域,对已有图像进行内补和外扩。在自定义数据集上微调预训练扩散模型,以产出专门的角色模型、风格一致的生成器或特定领域工具。使用时间扩散模型架构进行视频生成,在多帧之间产生流畅的运动。使用扩散模型框架开展对生成式 AI 能力、对齐和安全性的研究。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
扩散模型是一类生成式 AI,通过学习逆向化一个添加噪声的过程来生成图像。它从随机噪声开始,在文本提示词或其他条件输入的引导下,逐步去除噪声,直到浮现出流畅的图像。
扩散模型能产生高质量、多样化的输出,训练比 GAN 等早期生成架构更稳定,并且更善于遵循文本条件。它们能随算力扩展、能处理多种条件输入,使其成为现代 AI 图像和视频生成中的主导架构。
潜空间扩散模型在称为潜空间的图像压缩表示中运作,而非直接处理全分辨率像素。这在保持输出质量的同时显著降低了计算需求,也是 Stable Diffusion 以及许多其他生产级图像生成系统所采用的方法。
文本编码器将书面提示词转换为数值表示,在每一步与去噪网络一同提供,引导去噪过程朝哪个方向进行,以产出与提示词相符的图像,而非仅仅任意一张统计上合理的图像。
去噪步数是扩散模型为产出最终图像而执行的逐次去噪迭代。更多的步数给模型更多机会去精炼图像,通常会提升质量和细节,但每一步都需要计算时间。较低的步数生成更快,但可能产生较不精细的结果。
大多数主流文本到图像工具使用扩散模型架构,包括 Stable Diffusion、DALL-E 2、DALL-E 3、Midjourney 和 Imagen。大多数当代 AI 视频生成模型也是基于扩散的,或深受扩散模型原理的影响。
GAN 使用以对抗方式训练的相互竞争的生成器和判别器网络,在扩散模型之前是主导方法。GAN 容易不稳定且多样性有限。扩散模型训练更稳定、产生更多样的输出、更可靠地处理文本条件化,这正是它们在大多数高质量生成应用中取代 GAN 的原因。
可以。视频扩散模型将该架构扩展以包含时间维度,生成流畅的帧序列而非单张图像。大多数现代 AI 视频生成系统都建立在应用于时间序列的扩散模型原理之上,或受其重大影响。