Question 1

什么是扩散模型?

Accepted Answer

扩散模型是一类生成式 AI,通过学习逆向化一个添加噪声的过程来生成图像。它从随机噪声开始,在文本提示词或其他条件输入的引导下,逐步去除噪声,直到浮现出流畅的图像。

Question 2

为什么扩散模型如今被如此广泛使用?

Accepted Answer

扩散模型能产生高质量、多样化的输出,训练比 GAN 等早期生成架构更稳定,并且更善于遵循文本条件。它们能随算力扩展、能处理多种条件输入,使其成为现代 AI 图像和视频生成中的主导架构。

Question 3

什么是潜空间扩散模型?

Accepted Answer

潜空间扩散模型在称为潜空间的图像压缩表示中运作,而非直接处理全分辨率像素。这在保持输出质量的同时显著降低了计算需求,也是 Stable Diffusion 以及许多其他生产级图像生成系统所采用的方法。

Question 4

扩散模型中的文本条件化是如何工作的?

Accepted Answer

文本编码器将书面提示词转换为数值表示,在每一步与去噪网络一同提供,引导去噪过程朝哪个方向进行,以产出与提示词相符的图像,而非仅仅任意一张统计上合理的图像。

Question 5

什么是去噪步数,为什么它们重要?

Accepted Answer

去噪步数是扩散模型为产出最终图像而执行的逐次去噪迭代。更多的步数给模型更多机会去精炼图像,通常会提升质量和细节,但每一步都需要计算时间。较低的步数生成更快,但可能产生较不精细的结果。

Question 6

哪些图像生成工具使用扩散模型?

Accepted Answer

大多数主流文本到图像工具使用扩散模型架构,包括 Stable Diffusion、DALL-E 2、DALL-E 3、Midjourney 和 Imagen。大多数当代 AI 视频生成模型也是基于扩散的,或深受扩散模型原理的影响。

Question 7

扩散模型和 GAN 有什么区别?

Accepted Answer

GAN 使用以对抗方式训练的相互竞争的生成器和判别器网络,在扩散模型之前是主导方法。GAN 容易不稳定且多样性有限。扩散模型训练更稳定、产生更多样的输出、更可靠地处理文本条件化,这正是它们在大多数高质量生成应用中取代 GAN 的原因。

Question 8

扩散模型既能用于图像,也能用于视频吗?

Accepted Answer

可以。视频扩散模型将该架构扩展以包含时间维度,生成流畅的帧序列而非单张图像。大多数现代 AI 视频生成系统都建立在应用于时间序列的扩散模型原理之上,或受其重大影响。

扩散模型

扩散模型是什么？