扩散模型
扩散模型是什么?
扩散模型通过从随机噪声开始、一步步逐渐清理,学习生成图像,直到浮现出与文本提示词或其他指令相符的流畅画面。
一图看懂
- 别称
- 去噪扩散模型基于分数的生成模型潜空间扩散模型(指潜空间变体)
- 主要用途
- 文本到图像生成图像编辑与内补视频生成音频生成自定义模型微调
- 常用工具
- Stable diffusionDALL-e 2DALL-e 3MidjourneyImagenAI video generation platforms
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
扩散模型与 GAN 的对比:生成对抗网络(GAN)在扩散模型之前是主导性的图像生成架构。GAN 使用两个相互竞争的网络,,生成器和判别器,,以对抗方式训练。虽然能够产生清晰的图像,但 GAN 训练不稳定、容易出现模式崩溃,且输出多样性较低。扩散模型更稳定、产生更高的多样性、更可靠地处理条件化,并能随算力增加更好地扩展,这正是它们取代 GAN 成为高质量图像和视频生成主导方法的原因。
实用提示
使用基于扩散的工具时,去噪步数(在界面中常称为推理步数或采样步数)会直接影响质量和生成时间。更多的步数给模型更多机会去精炼图像,通常能产生更好的细节和一致性,但每一步都需要时间。对于快速的概念探索,较低的步数能迅速产出可用结果。对于最终成品质量的生成,较高的步数能从模型中提取更多细节。找到对你的用例而言能产生可接受质量的最低步数,是平衡速度与输出质量的一种实用做法。
类型与变体
像素空间扩散模型直接在全分辨率图像像素上运作,需要大量计算资源。潜空间扩散模型(包括 Stable Diffusion)在压缩后的潜空间中运作,而非直接处理像素,在保持输出质量的同时大幅降低了计算需求。基于分数的模型是一种在数学上相关的方法,通过不同的表述方式实现相似的生成质量。视频扩散模型将该架构扩展到时间维度,生成流畅的帧序列而非单张图像。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
在创意、商业和研究应用中根据文本提示词生成图像。通过基于扩散的生成来替换或扩展区域,对已有图像进行内补和外扩。在自定义数据集上微调预训练扩散模型,以产出专门的角色模型、风格一致的生成器或特定领域工具。使用时间扩散模型架构进行视频生成,在多帧之间产生流畅的运动。使用扩散模型框架开展对生成式 AI 能力、对齐和安全性的研究。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。