潜在空间(Latent Space)
潜在空间(Latent Space)是什么?
潜在空间是 AI 关于所有视觉概念的内部心智地图:一个压缩的数学空间,其中 "狗"、"日落" 和 "印象派绘画" 都是位置,模型通过在这张地图上导航来生成图像,而不是直接处理原始像素。
一图看懂
- 别称
- 嵌入空间潜在表示特征空间
- 主要用途
- 通过压缩实现高效的图像和视频生成概念融合与风格插值理解 AI 模型为何从相似提示产出多样化的输出
- 常用工具
- Stable diffusion (latent diffusion model)DALL-eMidjourneyAny diffusion-based generation model
- 相关术语
- Diffusion modelVAE (variational autoencoder)EmbeddingDenoisingSampling
- How it works in simple terms
- 模型不去处理一张原始图像的全部复杂度(数以百万计的像素值),而是将视觉数据压缩成一个小得多的潜在表示。生成过程通过去噪在这个压缩空间中进行:逐步将一个随机起点精炼成一个流畅的表示,然后将最终结果解码回一张真实图像。
- Where you encounter this
- 在讨论 AI 模型为何能融合概念、在风格之间插值,或为何生成速度和质量与潜在表示的维度相关时,会提到潜在空间。在讨论潜在扩散、VAE 编码质量,以及为何某些模型生成得更具创造性时,它也会出现。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
潜在空间作为一个概念,与许多模型用来将图像编码进潜在空间并解码回来的特定 VAE(变分自编码器)相关但有所不同。VAE 是在像素空间和潜在空间之间转换的工具;潜在空间则是抽象的数学空间本身。同样,CLIP 文本编码器创建文本提示的潜在表示,可与图像的潜在表示进行比较,从而实现文生图。
可以这样理解…
潜在空间就像一张关于所有视觉概念的详尽心智地图,地图上相似的事物彼此靠近。当 AI 生成一张图像时,它本质上是在这张地图上导航以找到正确的位置,然后画出那个位置看起来的样子,而不是从头逐个像素地绘制。
实用提示
理解 AI 模型通过潜在空间运作,有助于解释为何冗长、塞满信息的提示有时会降低输出质量:模型必须导航到一个同时满足众多约束的潜在空间区域,而过于具体或自相矛盾的提示可能无法清晰映射到任何流畅的潜在区域。清晰、聚焦、描述一个流畅视觉概念的提示往往产出更强的结果。
类型与变体
不同的模型架构使用不同类型的潜在空间。Stable Diffusion 所用的 VAE 压缩潜在空间将图像编码为一个空间化的潜在网格。CLIP 嵌入空间将文本和图像编码到一个共享的语义空间,实现跨模态匹配。DiT(扩散 Transformer)模型可能运行在与卷积前代具有不同结构特性的潜在空间中。潜在空间的维度和组织方式直接塑造了一个模型能够生成什么以及它如何融合概念。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
即便用户不直接与之交互,潜在空间也牵涉到每一项 AI 生成任务。它在以下情境中最为直接相关:讨论模型质量时(结构良好的潜在空间产出更流畅的概念融合)、理解为何某些提示产生意外结果时、比较模型架构时,以及使用文本反演(textual inversion)或 LoRA 等通过向模型潜在表示添加或调整内容来运作的技术时。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
潜在空间是 AI 模型用于处理和生成视觉内容的压缩内部数学表示。模型不直接处理原始像素,而是将视觉信息编码为一个小得多的潜在表示,其中相关概念占据相邻位置,然后将最终结果解码回像素。生成通过在这个潜在空间中导航和去噪来进行。
在现代 AI 生成的规模下,直接处理原始像素在计算上难以承受。一张全分辨率图像包含数以百万计的像素值。将其压缩成一个小一百倍以上的潜在表示,使生成过程变得可行,同时保留重建高质量输出所需的关键视觉与语义信息。
由于相关概念在训练良好的潜在空间中占据相邻区域,且模型可以导航到它们之间的位置,概念融合通过找到同时代表两者的潜在位置来实现。"一只看起来像狐狸的狗" 之所以可行,是因为狗和狐狸在潜在空间中相邻,模型可以导航到二者之间、兼具两者特质的区域。
潜在扩散是一种生成方法,其扩散去噪过程在潜在空间内进行,而非直接在像素空间中。模型从一个带噪的潜在表示开始,逐步将其去噪为一个流畅的潜在状态,然后用 VAE 解码器将该最终潜在状态解码为一张像素图像。Stable Diffusion 是这一方法最广为人知的实现。
每次生成都从潜在空间中的一个随机噪声点开始,并向与提示一致的状态去噪。不同的随机起点会沿着略有不同的路径,通向潜在空间中略有不同的最终位置:它们都与提示的引导一致,但并不相同。正是这种随机性,使得相同的提示生成多样化的输出,而非总是产出同一张图像。
丰富的潜在空间意味着模型已学到对众多概念的详尽、组织良好的表示,相关概念之间结构清晰,并能将它们流畅地组合起来。拥有丰富潜在空间的模型产出更具创造性、更细腻、更出人意料的概念组合;潜在空间结构欠佳的模型则产出更平庸、混乱或刻板的输出。
文本反演等技术通过在文本嵌入空间(潜在表示的一个组成部分)中找到对应于模型原始词汇之外特定视觉概念的新位置来运作。LoRA 则通过向权重添加小幅修改来运作,这些修改会调整模型在处理特定类型内容时如何在潜在空间中导航,在不完全重建的情况下有效地扩展或重定向潜在表示的部分内容。
可以,有多种方式。种子(seed)控制决定生成在潜在空间中的起点。CFG scale 控制提示在多大程度上引导对潜在空间的导航,相对于自由探索的强度。在某些图像编辑工作流中使用的潜在融合(latent blending)等技术,会直接在两个潜在表示之间插值,以在视觉状态之间创建平滑过渡。某些模型中的风格混合功能则通过组合来自多张图像的潜在表示来运作。