DALL-E
DALL-E是什么?
DALL-E 是 OpenAI 的首个能从文本描述生成图像的 AI 模型,证明了计算机能从书面指令创作出全新的图片。
一图看懂
- Type of model
- 文本到图像生成模型
- Developed by
- OpenAI
- Key capability
- 从自然语言提示词生成流畅图像,包括训练期间未见过的概念新颖组合
- How it fits in AI workflow
- 最初的 DALL-E 将文本到图像生成确立为一种实用模态,是 DALL-E 2 和 DALL-E 3 的前身,后两者是当前生产创意工作流程中所用的版本
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
DALL-E 与 Stable Diffusion 对比:DALL-E 是由 OpenAI 开发和控制的专有模型,通过其 API 和产品访问。Stable Diffusion 是一个开源模型,其权重公开可用,支持社区自定义、本地部署以及广泛的微调变体生态。DALL-E 优先考虑商业安全和易用性;Stable Diffusion 优先考虑开放性、灵活性和社区扩展。
实用提示
理解 DALL-E 的历史角色有助于为整个文本到图像生成领域提供背景。在接触关于 2021 年和 2022 年 AI 图像生成的文献、教程或讨论时,DALL-E 的提及通常指最初模型或 DALL-E 2。通过发布背景来区分这三代,可在拿较旧的能力说法对照当前模型表现进行评估时避免混淆。
类型与变体
最初的 DALL-E 使用基于 Transformer 的自回归架构,相较其后续版本产出分辨率较低的输出。DALL-E 2 以基于扩散的方法替换了架构,显著提升了质量并实现了内补绘制和外补绘制。DALL-E 3 在提示词遵循度、文本渲染和构图精细度上进一步推进。每个版本都是一个能力各异的独立模型,尽管它们共享相同的奠基概念和命名传承。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
研究和教育语境,将最初模型的历史意义和奠基性能力作为研究对象。早期商业创意工作流程,在更高质量的后续版本问世之前,DALL-E 输出被用于概念探索和构思。向不熟悉文本到图像生成的受众演示 AI 创意能力。最初的 DALL-E 较少用于当前的生产工作,后者通常依赖 DALL-E 2、DALL-E 3 或第三方模型。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
DALL-E 是 OpenAI 最初的文本到图像生成模型,于 2021 年 1 月发布。它证明了一个在图像-文本对上训练的 AI 能从自然语言描述生成流畅的全新图像,包括训练数据中不存在的概念新颖组合。
DALL-E 由 OpenAI 开发。这一名称结合了对萨尔瓦多·达利和皮克斯角色瓦力(WALL-E)的引用,体现了该项目的创意和技术抱负。
最初的 DALL-E 使用基于 Transformer 的自回归架构,产出分辨率较低的输出。DALL-E 2 转用基于扩散的方法,质量大幅提升。DALL-E 3 在提示词遵循度和文本渲染上增加了重大进步。每一代都是能力各异的独立模型。
最初的 DALL-E 使用一种 Transformer 架构,将图像 token 和文本 token 作为联合序列一同处理。DALL-E 2 和 DALL-E 3 使用基于扩散的架构,后者已成为文本到图像生成中的主导方法。
不是。DALL-E 及其后续版本是由 OpenAI 开发和控制的专有模型。它们通过 OpenAI 的 API 和集成产品访问,而非作为可下载的模型权重提供。
DALL-E 意义重大,因为它是首批能从开放式自然语言描述大规模生成流畅、富有创意图像的公开演示 AI 系统之一。它激起了对生成式 AI 创意潜力的广泛兴趣,并将自然语言确立为图像生成的创意界面。
最初的 DALL-E 如今主要具有历史和教育意义。当前的创意工作流程通常使用集成于 ChatGPT 和 Microsoft 创意工具中的 DALL-E 3,或在质量和能力上已超越最初版本的第三方模型。
最初的 DALL-E 能从文本提示词生成范围广泛的图像,包括诸如非常规形态或情境中的物体之类的概念新颖组合。其输出在分辨率和一致性上低于当前模型,但演示了从语言到图像的组合泛化这一核心原理。