Question 1

Imagen 是什么,由谁开发?

Accepted Answer

Imagen 是由 Google Research 开发的文生图 AI 模型。它被设计用于根据文字提示词生成照片级真实感的图像,借助 Google 在大型语言模型方面的专长,实现出色的提示词理解和准确的视觉合成。

Question 2

Imagen 与其他文生图模型有何不同?

Accepted Answer

Imagen 的独特之处在于它以大型语言模型为文本理解的基础,这使其相比文本编码器较为简单的模型有更强的提示词遵循度。在整个 Imagen 系列的发展过程中,Google 还始终如一地强调照片级真实感和负责任的部署。

Question 3

Imagen 是否面向公众开放?

Accepted Answer

初代 Imagen 主要作为研究演示发布,而非广泛可用的消费级产品。Google 在大规模公众部署方面一直较为谨慎,不过 Imagen 技术已被集成到多种 Google 产品中,并通过 Google 的 AI Test Kitchen 和企业服务等平台提供访问。

Question 4

Imagen 使用什么架构?

Accepted Answer

Imagen 将用于编码文本提示词的大型语言模型与基于扩散的图像生成过程相结合。这种架构使模型能够借助成熟的语言理解来引导视觉合成过程,生成与详细文本描述高度吻合的输出。

Question 5

Imagen 与 Imagen 2、Imagen 3 是什么关系?

Accepted Answer

Imagen 是一个代际系列中的第一代,该系列还包括 Imagen 2 和 Imagen 3。每一个后续版本都在图像质量、安全过滤、产品集成和生成能力方面带来提升,而初代 Imagen 则是整个系列由此演进而来的基础研究模型。

Question 6

Imagen 最适合生成哪类图像?

Accepted Answer

Imagen 擅长照片级真实感的图像合成,在提示词包含具体、细致描述时表现尤为出色。其强大的语言理解能力使它能够处理涉及多个元素、特定光照条件、构图安排和风格要求的复杂提示词。从事概念可视化、产品模拟图或照片级场景生成的创意专业人士往往会发现,在该模型上投入详细的提示词撰写能带来显著的回报。

Question 7

Google 如何处理 Imagen 的安全性?

Accepted Answer

在整个 Imagen 系列的发展过程中,Google 一直强调负责任的 AI 部署,引入内容过滤、安全分类器和审慎的部署决策,以降低生成有害或不当输出的风险。这种谨慎的方式既塑造了模型的架构,也影响了它向用户开放的方式。Google 没有立即向公众广泛发布,而是选择通过受控的产品和平台分阶段部署,在规模化之前优先建设安全基础设施。

Question 8

可以通过 API 访问 Imagen 吗?

Accepted Answer

Imagen 的能力通过 Google 的 Vertex AI 平台提供,该平台为开发者和企业用户提供 API 访问。这使各组织能够将基于 Imagen 的图像生成集成到自己的产品和工作流中,但需遵守 Google 的使用政策和安全准则。

Imagen(Google)

Imagen(Google)是什么？

执导场景、设计角色、完成整部影片

类型与变体

准备好在 Morphic 里做第一个场景了吗？

常见使用场景

执导场景、设计角色、完成整部影片

常见问题（FAQ）