Question 1

AI 生成中的潜在空间是什么?

Accepted Answer

潜在空间是 AI 模型用于处理和生成视觉内容的压缩内部数学表示。模型不直接处理原始像素,而是将视觉信息编码为一个小得多的潜在表示,其中相关概念占据相邻位置,然后将最终结果解码回像素。生成通过在这个潜在空间中导航和去噪来进行。

Question 2

AI 生成模型为何使用潜在空间而非直接处理像素?

Accepted Answer

在现代 AI 生成的规模下,直接处理原始像素在计算上难以承受。一张全分辨率图像包含数以百万计的像素值。将其压缩成一个小一百倍以上的潜在表示,使生成过程变得可行,同时保留重建高质量输出所需的关键视觉与语义信息。

Question 3

潜在空间如何实现 AI 生成中的概念融合?

Accepted Answer

由于相关概念在训练良好的潜在空间中占据相邻区域,且模型可以导航到它们之间的位置,概念融合通过找到同时代表两者的潜在位置来实现。"一只看起来像狐狸的狗" 之所以可行,是因为狗和狐狸在潜在空间中相邻,模型可以导航到二者之间、兼具两者特质的区域。

Question 4

什么是潜在扩散?

Accepted Answer

潜在扩散是一种生成方法,其扩散去噪过程在潜在空间内进行,而非直接在像素空间中。模型从一个带噪的潜在表示开始,逐步将其去噪为一个流畅的潜在状态,然后用 VAE 解码器将该最终潜在状态解码为一张像素图像。Stable Diffusion 是这一方法最广为人知的实现。

Question 5

为何相似的提示会从 AI 模型产出不同的输出?

Accepted Answer

每次生成都从潜在空间中的一个随机噪声点开始,并向与提示一致的状态去噪。不同的随机起点会沿着略有不同的路径,通向潜在空间中略有不同的最终位置:它们都与提示的引导一致,但并不相同。正是这种随机性,使得相同的提示生成多样化的输出,而非总是产出同一张图像。

Question 6

当人们说一个模型拥有 "丰富" 的潜在空间时,意味着什么?

Accepted Answer

丰富的潜在空间意味着模型已学到对众多概念的详尽、组织良好的表示,相关概念之间结构清晰,并能将它们流畅地组合起来。拥有丰富潜在空间的模型产出更具创造性、更细腻、更出人意料的概念组合;潜在空间结构欠佳的模型则产出更平庸、混乱或刻板的输出。

Question 7

LoRA 或文本反演等技术与潜在空间有何关系?

Accepted Answer

文本反演等技术通过在文本嵌入空间(潜在表示的一个组成部分)中找到对应于模型原始词汇之外特定视觉概念的新位置来运作。LoRA 则通过向权重添加小幅修改来运作,这些修改会调整模型在处理特定类型内容时如何在潜在空间中导航,在不完全重建的情况下有效地扩展或重定向潜在表示的部分内容。

Question 8

创作者能否直接操纵潜在空间?

Accepted Answer

可以,有多种方式。种子(seed)控制决定生成在潜在空间中的起点。CFG scale 控制提示在多大程度上引导对潜在空间的导航,相对于自由探索的强度。在某些图像编辑工作流中使用的潜在融合(latent blending)等技术,会直接在两个潜在表示之间插值,以在视觉状态之间创建平滑过渡。某些模型中的风格混合功能则通过组合来自多张图像的潜在表示来运作。

潜在空间(Latent Space)

潜在空间(Latent Space)是什么？

执导场景、设计角色、完成整部影片

类型与变体

准备好在 Morphic 里做第一个场景了吗？

常见使用场景

执导场景、设计角色、完成整部影片

常见问题（FAQ）