图生图
图生图是什么?
图生图获取你已有的一张照片或插画,将其变换成新的内容(改变风格、氛围或内容),同时保留原图的基本构图和结构。
一图看懂
- 别称
- Img2img图像引导生成风格迁移(在某些语境中)
- 主要用途
- 将艺术风格应用于现有图像或照片精修和迭代 AI 生成的输出将粗略草图改造为成品插画在保留构图的同时进行有针对性的美学修改
- 常用工具
- Stable diffusion (AUTOMATIC1111, ComfyUI)Midjourney (image prompting)Adobe fireflyRunwayCanva AI
- 相关术语
- Text-to-imageInpaintingOutpaintingDenoising strengthImage-to-video
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
图生图与局部重绘的对比:图生图在源图像结构的引导下,对整幅图像或其很大一部分施加变换。局部重绘仅对图像内特定遮罩区域施加生成,未遮罩区域完全保持不变。对于一幅在其他方面尚可接受的图像,要对小区域进行有针对性的修复,局部重绘更为合适;对于施加于整个构图的整体风格变换,图生图是正确的方法。
可以这样理解…
可以把图生图想象成将一张照片用作填色书的轮廓:摄影师拍下了画面、固定了构图,而现在你要求 AI 以完全不同的风格为其上色,仿佛同一场景由不同的艺术家在不同的时代捕捉。构图大致保持不变,但视觉处理的方方面面(色彩、纹理、风格、氛围)都可以被模型彻底变换。
实用提示
去噪强度参数是图生图工作流程中最重要的单一控制,值得在每个新项目上仔细试验。对于应保留源构图的风格变换,0.4 至 0.6 区间内的数值往往能在保留原图结构与给予模型足够创意空间以产生令人信服的变换之间取得最佳平衡。非常高的数值(高于 0.8)更接近纯文本生成,应在只需要宽松结构参考时使用。
类型与变体
图生图生成存在几种操作变体,取决于源图像条件如何施加。标准 img2img 使用单一源图像,配合文本提示和去噪强度参数来控制变换强度。风格迁移方法使用一幅图像作为风格参考、另一幅作为内容源,将风格图像的美学施加到内容图像的结构上。基于 ControlNet 的图生图使用从源图像提取的结构信息(深度图、边缘图、姿态骨架)作为精确条件,而非像素级初始化,比标准 img2img 更可靠地保留特定的结构特质。Midjourney 和 DALL-E 3 等模型中的参考图像条件将一幅图像作为宽松的风格指引,不施加直接的像素影响,产出受参考启发、却非在结构上源自参考的输出。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
摄影师和视觉艺术家用图生图探索对现有作品的风格变体:在保留构图的同时,对照片施加绘画式、插画式或特定类型的处理。概念美术师用它快速迭代设计方向,跨多种风格探索将粗略草图精修为精致概念。AI 内容创作者用它来校正和改进此前生成的、结构良好但需要美学调整的图像。产品设计师和营销人员将现有产品图像改造为不同的视觉风格、环境或语境,而无需重新拍摄。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
图生图是一种生成工作流程,其中一幅现有图像与文本提示一同作为输入,模型在保留源图像构图或结构某些方面的同时对其进行变换。它不同于文本生成图像,后者完全依据文字描述构建,没有视觉起点。
去噪强度控制模型对源图像变换的程度。在低值(接近 0)下,输出与源图像高度相似,仅有极小改动。在高值(接近 1)下,源图像仅提供粗略的结构建议,模型施加实质性的变换。最佳数值取决于原图构图应被保留还是被重新想象到何种程度。
文本生成图像完全依据文字描述生成图像,从随机噪声开始,没有视觉起点。图生图使用一幅现有图像作为部分初始化:在已有视觉结构的基础上开始去噪过程:文本提示引导该结构如何被变换,而非从零描述完整构图。
img2img 是图生图的常用缩写,在 Stable Diffusion 社区和工具界面中广泛使用。这些术语可互换使用,指的是同一种生成方法,其中一幅现有图像与文本提示一同作为输入以引导变换。
可以。在保留构图的同时为照片施加艺术风格,是图生图生成最常见的用途之一。通过设定适中的去噪强度并加入描述风格的提示词,模型可以变换照片的视觉处理,同时保留其主体、取景和空间关系。
ControlNet 是面向扩散模型的条件控制系统,它使用从源图像提取的结构信息(如边缘图、深度图或姿态骨架)作为精确条件,而非直接的像素初始化。它是一种更高级的基于图像的条件形式,使特定结构特质比标准 img2img 更可靠地得到保留,并被广泛用于角色姿态控制、建筑布局匹配,以及其他需要精确结构遵循的场景。
图生图在源图像视觉结构的引导下,对整幅图像或其相当一部分施加变换。局部重绘仅对遮罩区域施加生成,未遮罩区域保持不变。对于校正或替换一幅在其他方面尚可接受图像的特定小区域,局部重绘更为精确;对于将整体风格变换施加于整个构图,图生图是更合适的方法。
标准图生图需要源图像、描述所需输出的文本提示,以及一个去噪强度值。一些工作流程会增加额外的条件,如用于排除不需要元素的负面提示、用于可复现性的种子值,以及特定于模型的参数。使用 ControlNet 的更高级工作流程还需要指定从源图像中提取何种类型的结构条件。