文生图(Text-to-Image)
文生图(Text-to-Image)是什么?
文生图 AI 把一段书面描述变成一张生成图像:你用文字描述想要看到的内容,AI 便产出一张与你的描述相符的视觉画面。
一图看懂
- 别称
- T2I文生图生成提示生成图像AI 图像生成
- 主要用途
- 由书面描述生成原创图像电影与媒体制作的概念设计与视觉开发无需摄影即可创作营销与商业图像快速的视觉探索与创意构思
- 常用工具
- MidjourneyStable diffusion (AUTOMATIC1111, ComfyUI)Dall·e 3 (ChatGPT integration)Adobe fireflyIdeogramMorphic
- 相关术语
- Diffusion modelPrompt engineeringNegative promptText-to-videoImage-to-imageGuidance scale
- How it works in simple terms
- AI 把你的书面提示转换为一种表征其含义的数学表示,再用这一表示去引导一个建图过程:它从随机噪声出发,逐步把噪声塑形为一张与描述相符的流畅图像。
- Where you encounter this
- 文生图见于 Midjourney、Stable Diffusion 等专门的 AI 绘图平台,见于 Photoshop 中 Adobe Firefly 这类内嵌的创意工具,见于搭载 DALL·E 的 ChatGPT 等消费级产品,也见于 Morphic 这样的专业制作平台。它是最普及、最易上手的 AI 生成形式。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
文生图与图生图是互补的工作流,代表了“控制力”与“自由度”这道光谱上的不同位置。文生图从无到有(纯粹靠提示与模型默认值),提供最大的创作自由,但也带来最大的不可预测性。图生图则从一个已有的视觉结构出发(一张照片、一幅草图、一次先前的生成),把它当作构图锚点,而提示则引导其变换。当不需要某个特定视觉结构时,文生图更适合开放式探索;当需要结构控制、或要在一个理想起点上迭代时,图生图更胜一筹。
可以这样理解…
文生图就像向一位极其多产、又研习过有史以来每一张图像的艺术家约稿:你描述想要什么,他立刻产出一个版本,但结果的质量与准确度,完全取决于你在简报中把自己的构想传达得有多精确、多周全。
实用提示
把文生图提示按层级组织:先写主体及其最重要的视觉属性,接着写构图信息(取景、角度、距离),再加上场景与环境,然后是灯光的质感与方向,接着是风格与媒介,最后才是氛围或情绪基调。这种分层方式契合生成模型处理提示信息的方式,比起一长串不分主次的形容词堆砌,能产出更稳定流畅的结果,因为后者会让模型在缺乏“孰轻孰重”指引的情况下自行权衡。
类型与变体
扩散模型文生图借助由提示条件引导的迭代去噪,从噪声中产出图像:这是 Stable Diffusion、DALL·E 3、Midjourney 及大多数当代生成工具所采用的主流路线。自回归文生图逐个 token 地产出图像,与语言模型生成文本的方式类似。基于 GAN 的文生图使用在文本-图像配对上训练的生成对抗网络,这是一种较早的路线,如今已大体被扩散模型取代。基于流(flow-based)的模型是一种新兴路线,它通过学习到的可逆变换、而非扩散去噪来产出图像。混合架构则融合多种路线的要素,以发挥各自的强项。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
文生图被用于电影、游戏与媒体制作中的概念设计与视觉开发;商业与编辑摄影的替代;广告与营销图像;社交媒体内容创作;书籍与编辑插画;角色与世界观设计;产品与建筑可视化;以及快速的创意探索与情绪板制作。它是大多数 AI 生成工作流的入口,也是被最广泛采用的 AI 创意工具。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
文生图 AI 生成是由一段书面文字提示创作图像的过程。用户描述想要看到的内容(主体、构图、风格与氛围),AI 模型便合成一张与描述相符的视觉结果。它是最易上手、被最广泛使用的 AI 图像生成形式。
大多数文生图系统采用扩散模型。文本提示先由文本编码器编码为一种数学表示,这一表示再被用于引导一个去噪过程:它从随机噪声出发,逐步把噪声塑形为一张流畅图像。提示条件把去噪导向与所描述内容、风格与构图相符的画面。该过程历经多个迭代步骤,每一步都让图像进一步精修。
有效的文生图提示是具体的、按层级组织的,且视觉上具象。它们以清晰的视觉属性描述主体,指明取景与镜头角度等构图信息,界定场景与环境,限定灯光,并指明艺术媒介或风格。含糊或抽象的语言会产出不可预测的结果;精确的视觉描述则产出更稳定、更准确的结果。对提示进行测试与迭代,是这一工作流中正常且必要的环节。
guidance scale 是一个参数,用于控制生成图像对文字提示的贴合程度。较高的 guidance scale 数值会让模型更看重提示,产出更严格遵循提示描述的结果,但画面可能过饱和、显得人工锐利。较低的数值则给模型更多创作自由,产出看起来更自然的结果,但可能在细枝末节上偏离提示。为给定的模型与用例找到合适的 guidance scale,是一项重要的校准工作。
种子是一个数字,用于初始化生成过程所由之出发的随机噪声。用相同的种子配合相同的提示与设置,会产出相同的图像;而改变种子则产出不同的变体。种子对可复现性很有用:只改一个元素就能生成一致的变体;也便于在找到你喜欢的构图或版式后,保持种子不变、只改提示来迭代。
文生图从零开始、依据一段书面描述创作一张新图像;它并不修改已有图像。图像编辑工具则作用于已有的照片或图像,在不依据文字描述生成新内容的前提下调整其属性。诸如内补绘制(inpainting)与外延绘制(outpainting)等 AI 驱动的图像编辑工具,虽借助生成技术来填补或扩展图像,但它们作用于已有的视觉内容,而非纯粹由提示从头生成。
大多数商用文生图平台会限制或禁止按姓名生成特定的真实个体,尤其是公众人物。这是一项与同意、虚假信息风险及潜在滥用相关的安全与法律措施。模型在被提示时或许有能力生成相貌,但负责任的平台会施加过滤与政策来限制这一能力。对于涉及特定人物的商业制作,获得授权的摄影或经妥善同意的参考材料,仍是恰当的做法。
结果质量取决于模型训练数据的质量与覆盖广度、其文字理解的精细度、提示的具体性与结构,以及所用的推理参数(步数、guidance scale、分辨率)。在模型能力之外,提示质量是从业者可控范围内最大的变量:面对同一主体,同一个模型在一个含糊的提示与一个精确组织的提示下,产出的结果会天差地别。