生成对抗网络(GAN)
生成对抗网络(GAN)是什么?
GAN 是一种 AI 系统,其中两个网络相互竞争:一个试图创建逼真的假图像,另一个试图识别这些假货:通过这种竞争,生成器在产出逼真结果方面变得越来越出色。
一图看懂
- 别称
- GAN对抗网络生成器-判别器网络
- 主要用途
- 图像合成视频生成风格迁移人脸生成图像上采样域转换
- 常用工具
- StyleGANPix2PixCycleGANBigGANESRGAN
- 相关术语
- Diffusion modelLatent spaceNeural networkStyleGANImage synthesisDiscriminator
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
GAN 与扩散模型:GAN 通过生成器的单次前向传递生成图像,使其快速,但有时训练不稳定且易于模式坍缩。扩散模型通过迭代去噪过程生成图像,速度较慢但通常更稳定、更可控,并能实现更高的多样性与质量。大多数领先的图像与视频生成工具已转向基于扩散的架构,不过在速度至关重要的场合 GAN 仍受青睐。
可以这样理解…
把 GAN 想象成一个伪造者与一个艺术侦探在相互竞争。伪造者(生成器)不断产出假画作,试图把它们当作真迹蒙混过关,而侦探(判别器)则研究真品与赝品以更善于识破伪作。随着侦探的进步,伪造者不得不更努力地去骗过他:通过这种来回博弈,伪造者最终变得极其擅长产出以假乱真的赝品。
实用提示
在为实时应用(如直播视频增强或快速人像生成)评估 AI 工具时,查看它们是否使用基于 GAN 的方法:GAN 在推理上可以比扩散模型快得多,这在延迟是约束条件时尤为重要。
类型与变体
GAN 家族包含许多为不同任务设计的独特架构。DCGAN(深度卷积 GAN)确立了将卷积层用于图像生成。Progressive GAN 与 StyleGAN 改进了分辨率与控制,其中 StyleGAN 成为高质量人脸合成的标准。条件 GAN(cGAN)允许生成由类别标签或其他输入条件引导。Pix2Pix 使用成对训练数据执行图像到图像的转换,而 CycleGAN 在无成对样本的情况下实现类似的转换。ESRGAN 将对抗训练应用于图像超分辨率。更近期的混合方法将 GAN 组件与扩散或 transformer 元素结合,以继承各自范式的优势。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
GAN 已在 AI 创意与商业应用中被广泛使用。常见用途包括为其他机器学习模型生成合成训练数据、为头像与图库图像产出逼真的人脸、执行实时视频增强与上采样、在图像之间迁移艺术风格,以及驱动人像动画工具。在广播与后期制作中,基于 GAN 的上采样器被用于增强档案或低分辨率画面。DeepFake 技术:无论是有害的还是正当的应用,如电影中的换脸:也源自 GAN 架构。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
GAN 是生成对抗网络(Generative Adversarial Network)的缩写。其中的「对抗」指驱动训练过程的两个网络(生成器与判别器)之间的竞争关系。
GAN 由伊恩·古德费洛及其同事在蒙特利尔大学于 2014 年的一篇论文中提出。据称这一思想是在一次酒馆讨论中构想出来的,并在同一晚被开发成一个可运行的原型。
是的,尽管扩散模型已在图像与视频生成质量上成为主导架构。GAN 仍被广泛用于实时视频增强、人脸生成、ESRGAN 等上采样工具,以及推理速度是优先项的应用中。
模式坍缩是一种训练失败,生成器学会只产出能可靠骗过判别器的狭窄范围输出,而非训练数据的完整多样性。例如,一个人脸 GAN 可能坍缩到只生成少数几张相似的人脸。它是 GAN 训练的关键挑战之一。
GAN 通过生成器网络的单次传递产出输出,使其快速。扩散模型通过多步迭代去噪产出输出,速度较慢但通常产出更多样、更高质量的结果。大多数前沿生成工具如今都使用扩散模型。
StyleGAN 是由 NVIDIA 开发的极具影响力的 GAN 架构,它引入了对生成图像属性的基于风格的控制,为人脸与人像生成实现了前所未有的质量与控制。它历经多个版本(StyleGAN2、StyleGAN3),仍是被研究最多的 GAN 变体之一。
可以。视频 GAN 将对抗训练框架扩展到时间序列,训练生成器产出流畅的多帧片段。例子包括 VideoGAN 与 MoCoGAN。然而,GAN 的视频生成质量最终被基于扩散的视频模型所超越。