文生图(Text-to-Image)
文生图(Text-to-Image)是什么?
文生图 AI 把一段书面描述变成一张生成图像:你用文字描述想要看到的内容,AI 便产出一张与你的描述相符的视觉画面。
一图看懂
- 别称
- T2I文生图生成提示生成图像AI 图像生成
- 主要用途
- 由书面描述生成原创图像电影与媒体制作的概念设计与视觉开发无需摄影即可创作营销与商业图像快速的视觉探索与创意构思
- 常用工具
- MidjourneyStable diffusion (AUTOMATIC1111, ComfyUI)Dall·e 3 (ChatGPT integration)Adobe fireflyIdeogramMorphic
- 相关术语
- Diffusion modelPrompt engineeringNegative promptText-to-videoImage-to-imageGuidance scale
- How it works in simple terms
- AI 把你的书面提示转换为一种表征其含义的数学表示,再用这一表示去引导一个建图过程:它从随机噪声出发,逐步把噪声塑形为一张与描述相符的流畅图像。
- Where you encounter this
- 文生图见于 Midjourney、Stable Diffusion 等专门的 AI 绘图平台,见于 Photoshop 中 Adobe Firefly 这类内嵌的创意工具,见于搭载 DALL·E 的 ChatGPT 等消费级产品,也见于 Morphic 这样的专业制作平台。它是最普及、最易上手的 AI 生成形式。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
文生图与图生图是互补的工作流,代表了“控制力”与“自由度”这道光谱上的不同位置。文生图从无到有(纯粹靠提示与模型默认值),提供最大的创作自由,但也带来最大的不可预测性。图生图则从一个已有的视觉结构出发(一张照片、一幅草图、一次先前的生成),把它当作构图锚点,而提示则引导其变换。当不需要某个特定视觉结构时,文生图更适合开放式探索;当需要结构控制、或要在一个理想起点上迭代时,图生图更胜一筹。
可以这样理解…
文生图就像向一位极其多产、又研习过有史以来每一张图像的艺术家约稿:你描述想要什么,他立刻产出一个版本,但结果的质量与准确度,完全取决于你在简报中把自己的构想传达得有多精确、多周全。
实用提示
把文生图提示按层级组织:先写主体及其最重要的视觉属性,接着写构图信息(取景、角度、距离),再加上场景与环境,然后是灯光的质感与方向,接着是风格与媒介,最后才是氛围或情绪基调。这种分层方式契合生成模型处理提示信息的方式,比起一长串不分主次的形容词堆砌,能产出更稳定流畅的结果,因为后者会让模型在缺乏“孰轻孰重”指引的情况下自行权衡。
类型与变体
扩散模型文生图借助由提示条件引导的迭代去噪,从噪声中产出图像:这是 Stable Diffusion、DALL·E 3、Midjourney 及大多数当代生成工具所采用的主流路线。自回归文生图逐个 token 地产出图像,与语言模型生成文本的方式类似。基于 GAN 的文生图使用在文本-图像配对上训练的生成对抗网络,这是一种较早的路线,如今已大体被扩散模型取代。基于流(flow-based)的模型是一种新兴路线,它通过学习到的可逆变换、而非扩散去噪来产出图像。混合架构则融合多种路线的要素,以发挥各自的强项。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
文生图被用于电影、游戏与媒体制作中的概念设计与视觉开发;商业与编辑摄影的替代;广告与营销图像;社交媒体内容创作;书籍与编辑插画;角色与世界观设计;产品与建筑可视化;以及快速的创意探索与情绪板制作。它是大多数 AI 生成工作流的入口,也是被最广泛采用的 AI 创意工具。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。