在 Morphic 上使用 Google 的 Gemini Omni

在 Morphic 上使用 Google 的 Gemini Omni。any-to-any AI 模型支持在一个 Prompt 中同时输入文本、图像、音频和视频,生成视频,并提供对话式编辑、角色一致性、精确物理和 SynthID 水印。

在 Morphic 上使用 Google 的 Gemini Omni

上传一张人物参考图、一张场景照片、一段声音样本,再加上一句剧情概要。Gemini Omni 会把四者整体解读,生成一段连贯视频,并通过对话持续在同一个场景上编辑。即将登陆 Morphic,与 Veo 3.1、Seedance 2.0 以及完整的视频目录并肩提供。

如何在 Morphic 上使用 Gemini Omni

1.

打开 Morphic 的视频模式

在 Morphic 底部的提示栏中切换到视频模式,然后从模型选择器中选择 Google 的 Gemini Omni。

2.

在模型选择器中选择 Gemini Omni

打开模型选择器,从视频模型列表中选择 Gemini Omni。首批可用版本是 Gemini Omni Flash,它是 Google Omni 系列的入门款。

3.

上传你的输入

附上你希望 Gemini Omni 整合的参考素材:文本、一张图像、一个音频文件、一段视频片段,或任意组合。模型会对所有输入进行整体推理,而不是简单拼接,因此最终镜头会一次性反映出每一项参考素材。

4.

生成后通过对话继续编辑

运行 Prompt。Gemini Omni 会生成最长 10 秒的片段。如需换装、换场或调整动作时机,只要在下一条消息中说明即可。场景会记住此前发生的一切,编辑会落在已有的镜头上。

什么是 Gemini Omni?

Gemini Omni 是 Google 首款 any-to-any 多模态模型,于 2026 年 5 月 19 日的 Google I/O 2026 上发布。首批发布的 Gemini Omni Flash 支持文本、图像、音频和视频作为输入,输出视频,并在每段片段上提供对话式编辑、角色一致性和 SynthID 水印。Google 表示,图像和音频输出将作为 Gemini Omni 系列的后续扩展加入。

在 Morphic 上,Gemini Omni 位于视频模型选择器中,与 Veo 3.1、Seedance 2.0、Kling 以及完整的视频目录并列。

Gemini Omni 的功能与能力

Gemini Omni 的 any-to-any 输入

一个 Gemini Omni Prompt 可以同时接收文本、图像、音频和视频。模型不会按顺序拼接这些输入,而是把它们当作同一份简报进行整体推理,因此一张人物参考图、一张场景照片、一段声音样本和一句剧情概要,会共同塑造同一段镜头。声音参考是发布时首批支持的音频输入形式,更广泛的音频输入已列入路线图。

Gemini Omni 的对话式编辑

Gemini Omni 中的每一条指令都在前一条之上叠加。换装、换背景、调整动作时机或延伸场景,只需在下一条消息中描述即可。镜头会记住此前发生的一切,编辑会落在已有的场景上,而不是另起一次生成。

Gemini Omni 的角色与场景一致性

在同一段对话中,Gemini Omni 某个镜头里出现的角色会在后续镜头和多轮编辑中保持相同的面孔、服装和声音。模型也会在多轮之间稳定光线与连贯性,因此第一镜中出现的角色,在第三镜里依然清晰可辨。

精确物理与现实世界推理

Gemini Omni 将物理、文化、历史和科学知识应用到所生成的场景中。重力、重量、碰撞和流体行为遵循真实规则;历史与文化细节也能保持准确,而不是漂移成泛泛的 AI 质感。最终画面看起来的运动是正确的,而不仅仅是流畅。

声音参考让镜前声音保持一致

在文本和图像之外再提供一段简短的声音样本,Gemini Omni 会在生成的视频中保持该声音一致。适用于虚拟形象解说、品牌主持人短片以及需要同一主持人在多支视频中出现的短视频内容。

每段 Gemini Omni 视频都带 SynthID 水印

Gemini Omni 生成的每段片段都带有 Google 不可见的 SynthID 数字水印,用于 AI 来源标识。水印对观众不可见,并可在重新编码、缩放等常见变换后依然保留,让 AI 生成的素材在后续制作链路中始终可被识别。

FAQs

什么是 Gemini Omni?

Gemini Omni 是 Google 首款 any-to-any 多模态模型。首批发布的 Gemini Omni Flash 支持文本、图像、音频和视频作为输入,输出视频,并在每段片段上提供对话式编辑、角色一致性、精确物理和 SynthID 水印。

在 Morphic 上如何使用 Gemini Omni?

打开 Morphic,将提示栏切换到视频模式,并在模型选择器中选择 Gemini Omni。附加文本、图像、音频、视频或任意组合的参考素材,然后运行 Prompt。需要调整结果时,在下一条消息中说明即可,场景会保留先前的上下文。

Gemini Omni 是图像模型吗?

不是。Gemini Omni 的输出是视频。模型支持图像作为输入模式之一,与文本、音频、视频并列,但生成的结果是一段视频。Google 表示图像和音频输出将作为 Gemini Omni 系列的后续扩展加入。

Gemini Omni 的视频可以多长?

Gemini Omni Flash 片段在发布时上限为 10 秒。Google 表示这一上限属于部署决策,而非模型本身的硬性限制,未来版本中 Gemini Omni 的时长有望进一步延长。

Gemini Omni 支持哪些输入?

Gemini Omni 在同一个 Prompt 中支持文本、图像、音频和视频的任意组合。首批支持的音频输入是声音参考,更广泛的音频输入已列入路线图。

Gemini Omni 与 Veo 3.1 相比有何不同?

Veo 3.1 是 Google DeepMind 的照片级写实视频模型,支持 4K 分辨率、原生音频合成和 8 秒片段,专注于广播级真实感。Gemini Omni Flash 是其 any-to-any 的姐妹模型,时长上限 10 秒,聚焦于多输入推理、对话式编辑以及跨编辑的持续角色一致性。

Gemini Omni 与 Seedance 2.0 相比有何不同?

Gemini Omni 和 Seedance 2.0 都是多模态视频模型。Seedance 2.0 每次生成支持最多 12 个混合素材,具备原生音频合成与音乐节拍同步,分辨率 1080p,时长 4 到 15 秒。Gemini Omni Flash 聚焦于逐轮对话式编辑以及 Google 的物理和现实世界推理,目前时长上限为 10 秒。

什么是 SynthID?为什么 Gemini Omni 要带它?

SynthID 是 Google 面向 AI 生成内容的不可见水印。Gemini Omni 生成的每段视频都会默认带上它。水印对观众不可见,并可在重新编码、缩放等常见编辑后依然保留,让 AI 生成的素材在整条制作链路中始终可被识别。

Gemini Omni 是什么时候发布的?

Google 在 2026 年 5 月 19 日的 Google I/O 2026 上发布了 Gemini Omni。Gemini Omni Flash 是该系列的首个版本,图像和音频输出被列为未来计划新增的能力。

chair
让您的故事栩栩如生
无需下载,无需安装。加入使用 Morphic 将想法转化为精美故事的不断增长的创作者社区。