Question 1

什么是Gemini Omni？

Accepted Answer

Gemini Omni是Google首款any-to-any多模态模型，在Google I/O 2026上发布。首批发布的Gemini Omni Flash支持文本、图像、音频和视频作为输入，输出视频，并在每段片段上提供对话式编辑、角色一致性和SynthID水印。

Question 2

Gemini Omni是图像模型吗？

Accepted Answer

不是。Gemini Omni输出视频。模型支持图像与文本、音频和视频一同作为输入，但生成的结果是一段视频。Google表示图像和音频输出模式已列入Gemini Omni路线图，但不包含在首发版本中。

Question 3

在Morphic上如何使用Gemini Omni？

Accepted Answer

打开Morphic，将提示栏切换到视频模式，并在模型选择器中选择Gemini Omni。附加任意组合的文本、图像、音频和视频参考，然后运行Prompt。需要调整结果时，在下一条消息中说明即可，场景会保留先前的上下文。

Question 4

Gemini Omni视频有多长？

Accepted Answer

Gemini Omni Flash片段在发布时上限为10秒。Google表示这一上限属于初期推广的部署决策，而非模型本身的硬性限制，未来版本中Gemini Omni的时长有望进一步延长。

Question 5

Gemini Omni支持哪些输入？

Accepted Answer

Gemini Omni在同一个Prompt中支持文本、图像、音频和视频的任意组合。首批支持的音频输入是声音参考，更广泛的音频输入和更多输出模式已在规划中。

Question 6

Gemini Omni与Veo 3.1相比有何不同？

Accepted Answer

Veo 3.1是Google DeepMind的照片级写实视频模型，支持4K分辨率、原生音频和8秒片段，专注于广播级真实感。Gemini Omni Flash是其any-to-any的姐妹模型，时长较短（最长10秒），聚焦于多输入推理、对话式编辑以及跨编辑的持续角色一致性。Veo是写实专家，Gemini Omni是多模态导演。

Question 7

Gemini Omni与Seedance 2.0相比有何不同？

Accepted Answer

Gemini Omni和Seedance 2.0都是多模态视频模型。Seedance 2.0每次生成支持最多12个混合素材，具备原生音频合成与音乐节拍同步，分辨率1080p，时长4到15秒。Gemini Omni Flash聚焦于逐轮对话式编辑以及Google的物理和现实世界推理，目前时长上限为10秒。

Question 8

Gemini Omni的视频带水印吗？

Accepted Answer

带。Gemini Omni生成的每段视频都带有Google不可见的SynthID水印，用于AI来源标识。水印对观众不可见，并可在重新编码、缩放等常见编辑后依然保留。

Question 9

Gemini Omni支持角色一致性吗？

Accepted Answer

支持。在同一段对话中，Gemini Omni某个镜头里出现的角色会在后续镜头和多轮编辑中保持相同的面孔、服装和声音，无需每一轮都重新上传参考。

Question 10

Gemini Omni是什么时候发布的？

Accepted Answer

Google在2026年5月19日的Google I/O 2026上发布了Gemini Omni。Gemini Omni Flash是该系列的首个版本，图像和音频输出被列为未来计划新增的能力。

Gemini Omni

核心功能

any-to-any输入

对话式编辑

角色一致性

物理与现实世界推理

音频声音参考

SynthID水印

技术规格

应用场景

多输入分镜创作

对话式视频编辑

营销视频

教学解说

虚拟形象与主持人视频

社交短视频

提示词示例

电影级黑色电影

产品发布

自然解说

虚拟主持人

建筑漫游

故事节拍

简单定价

常见问题

进一步了解 Gemini Omni

其他模型