潜在空间(Latent Space)
潜在空间(Latent Space)是什么?
潜在空间是 AI 关于所有视觉概念的内部心智地图:一个压缩的数学空间,其中 "狗"、"日落" 和 "印象派绘画" 都是位置,模型通过在这张地图上导航来生成图像,而不是直接处理原始像素。
一图看懂
- 别称
- 嵌入空间潜在表示特征空间
- 主要用途
- 通过压缩实现高效的图像和视频生成概念融合与风格插值理解 AI 模型为何从相似提示产出多样化的输出
- 常用工具
- Stable diffusion (latent diffusion model)DALL-eMidjourneyAny diffusion-based generation model
- 相关术语
- Diffusion modelVAE (variational autoencoder)EmbeddingDenoisingSampling
- How it works in simple terms
- 模型不去处理一张原始图像的全部复杂度(数以百万计的像素值),而是将视觉数据压缩成一个小得多的潜在表示。生成过程通过去噪在这个压缩空间中进行:逐步将一个随机起点精炼成一个流畅的表示,然后将最终结果解码回一张真实图像。
- Where you encounter this
- 在讨论 AI 模型为何能融合概念、在风格之间插值,或为何生成速度和质量与潜在表示的维度相关时,会提到潜在空间。在讨论潜在扩散、VAE 编码质量,以及为何某些模型生成得更具创造性时,它也会出现。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
潜在空间作为一个概念,与许多模型用来将图像编码进潜在空间并解码回来的特定 VAE(变分自编码器)相关但有所不同。VAE 是在像素空间和潜在空间之间转换的工具;潜在空间则是抽象的数学空间本身。同样,CLIP 文本编码器创建文本提示的潜在表示,可与图像的潜在表示进行比较,从而实现文生图。
可以这样理解…
潜在空间就像一张关于所有视觉概念的详尽心智地图,地图上相似的事物彼此靠近。当 AI 生成一张图像时,它本质上是在这张地图上导航以找到正确的位置,然后画出那个位置看起来的样子,而不是从头逐个像素地绘制。
实用提示
理解 AI 模型通过潜在空间运作,有助于解释为何冗长、塞满信息的提示有时会降低输出质量:模型必须导航到一个同时满足众多约束的潜在空间区域,而过于具体或自相矛盾的提示可能无法清晰映射到任何流畅的潜在区域。清晰、聚焦、描述一个流畅视觉概念的提示往往产出更强的结果。
类型与变体
不同的模型架构使用不同类型的潜在空间。Stable Diffusion 所用的 VAE 压缩潜在空间将图像编码为一个空间化的潜在网格。CLIP 嵌入空间将文本和图像编码到一个共享的语义空间,实现跨模态匹配。DiT(扩散 Transformer)模型可能运行在与卷积前代具有不同结构特性的潜在空间中。潜在空间的维度和组织方式直接塑造了一个模型能够生成什么以及它如何融合概念。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
即便用户不直接与之交互,潜在空间也牵涉到每一项 AI 生成任务。它在以下情境中最为直接相关:讨论模型质量时(结构良好的潜在空间产出更流畅的概念融合)、理解为何某些提示产生意外结果时、比较模型架构时,以及使用文本反演(textual inversion)或 LoRA 等通过向模型潜在表示添加或调整内容来运作的技术时。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。