Question 1

什么是 DALL-E？

Accepted Answer

DALL-E 是 OpenAI 最初的文本到图像生成模型，于 2021 年 1 月发布。它证明了一个在图像-文本对上训练的 AI 能从自然语言描述生成流畅的全新图像，包括训练数据中不存在的概念新颖组合。

Question 2

DALL-E 是谁制作的？

Accepted Answer

DALL-E 由 OpenAI 开发。这一名称结合了对萨尔瓦多·达利和皮克斯角色瓦力（WALL-E）的引用，体现了该项目的创意和技术抱负。

Question 3

DALL-E 与 DALL-E 2 和 DALL-E 3 有何不同？

Accepted Answer

最初的 DALL-E 使用基于 Transformer 的自回归架构，产出分辨率较低的输出。DALL-E 2 转用基于扩散的方法，质量大幅提升。DALL-E 3 在提示词遵循度和文本渲染上增加了重大进步。每一代都是能力各异的独立模型。

Question 4

DALL-E 使用什么架构？

Accepted Answer

最初的 DALL-E 使用一种 Transformer 架构，将图像 token 和文本 token 作为联合序列一同处理。DALL-E 2 和 DALL-E 3 使用基于扩散的架构，后者已成为文本到图像生成中的主导方法。

Question 5

DALL-E 是开源的吗？

Accepted Answer

不是。DALL-E 及其后续版本是由 OpenAI 开发和控制的专有模型。它们通过 OpenAI 的 API 和集成产品访问，而非作为可下载的模型权重提供。

Question 6

DALL-E 发布时为何意义重大？

Accepted Answer

DALL-E 意义重大，因为它是首批能从开放式自然语言描述大规模生成流畅、富有创意图像的公开演示 AI 系统之一。它激起了对生成式 AI 创意潜力的广泛兴趣，并将自然语言确立为图像生成的创意界面。

Question 7

DALL-E 如今用于什么？

Accepted Answer

最初的 DALL-E 如今主要具有历史和教育意义。当前的创意工作流程通常使用集成于 ChatGPT 和 Microsoft 创意工具中的 DALL-E 3，或在质量和能力上已超越最初版本的第三方模型。

Question 8

最初的 DALL-E 能生成什么样的图像？

Accepted Answer

最初的 DALL-E 能从文本提示词生成范围广泛的图像，包括诸如非常规形态或情境中的物体之类的概念新颖组合。其输出在分辨率和一致性上低于当前模型，但演示了从语言到图像的组合泛化这一核心原理。

DALL-E

DALL-E是什么？