多模态

Gemini Omni

由 Google DeepMind 提供

Google首款any-to-any AI模型。输入文本、图像、音频、视频,输出文本、图像、音频、视频。

any-to-any输入文本生成视频图像生成视频音频生成视频视频生成视频对话式编辑角色一致性精确物理运动声音参考音频SynthID水印
Gemini Omni

核心功能

Gemini Omni 与其他 AI 模型的不同之处

技术规格

关键规格和功能一览

Omni Flash

Google Gemini Omni系列的首款模型

Video

图像和音频输出已列入Gemini Omni路线图

Up to 10s

Flash片段在发布时上限为10秒,以便扩大可用范围

Text, image, audio, video

任意组合可同时出现在一个Gemini Omni Prompt中

Voice references

首批支持声音样本,完整音频输入随后推出

SynthID

Gemini Omni每段输出都带有不可见的AI来源水印

May 19, 2026

在Google I/O 2026上发布

Google DeepMind

面向any-to-any视频创作的Veo继任者定位

应用场景

创作者和企业如何在 Morphic 上使用 Gemini Omni

多输入分镜创作

上传一张角色参考图、一张场景照片、一段音乐线索,再加一句剧情概要,让Gemini Omni整合出镜头。通过后续对话在同一个场景上反复迭代。

对话式视频编辑

用自然语言描述要修改的内容,即可对已有片段进行编辑。换装、替换背景、调整光线、调整动作时机。Gemini Omni都会保留镜头其余部分不变。

营销视频

生成贴合品牌色、产品造型与画面文字的广告剪辑。一个Prompt中组合产品照片、配音参考和场景简报,直接产出成片。

教学解说

借助物理与现实世界推理,可视化呈现科学、历史和工程概念。模型在保证科学准确的同时,输出干净、可直接呈现的画面。

虚拟形象与主持人视频

结合一张人物肖像和一段声音参考,Gemini Omni可在多支短视频中输出形象一致的镜前主持人。适用于课程、产品演示和短视频。

社交短视频

10秒以内的片段契合YouTube Shorts、Reels和TikTok节奏。通过对话生成多种变体,不必反复重写Prompt,直接发布效果最好的那一版。

提示词示例

打开任意提示词进行编辑并生成

电影级动作

Detective walking through neon-lit Tokyo alley at night, rain reflections on wet pavement, low-angle tracking shot, gritty noir

Edit prompt

产品发布

Matte-black wireless earbuds rotating above a marble pedestal, soft rim light, subtle haze, premium commercial mood

Edit prompt

自然解说

Slow-motion water droplet hitting a leaf and bouncing, macro lens, soft morning light, accurate fluid behavior

Edit prompt

虚拟主持人

Confident host in front of warm studio backdrop, eye contact, calm gestures, soft three-point lighting, broadcast feel

Edit prompt

建筑漫游

Slow dolly through a minimalist concrete house at golden hour, long shadows, dust in the sunlight, calm score-ready pacing

Edit prompt

故事节拍

Same character from earlier shot now seated by a window, reading a letter, expression shifting from worry to relief, soft natural light

Edit prompt

简单定价

今天就免费开始,随时可以升级或取消。

Basic

$0/
账单金额为 $0 每年

500 每月 信用

1 个用户

所有模型

工作流

Standard

$0/
账单金额为 $0 每年

2800 每月 信用

1 个用户

所有模型

工作流

Pro

$0/
账单金额为 $0 每年

6000 共享 每月 信用

1 用户

+ 最多 4 人额外付费可增加

所有模型

工作流

Pro Max

$0/
账单金额为 $0 每年

24000 共享 每月 信用

1 用户

+ 最多 9 人额外付费可增加

所有模型

工作流

Enterprise

更高的限制

自定义

定价和账单条款

无限信用
自定义席位限制
所有模型
工作流
Pricing Gradient

Free

For playing around

$0

forever free

最多 20 积分
仅1个用户
部分模型
工作流

FAQs

什么是Gemini Omni?
Gemini Omni是Google首款any-to-any多模态模型,在Google I/O 2026上发布。首批发布的Gemini Omni Flash支持文本、图像、音频和视频作为输入,输出视频,并在每段片段上提供对话式编辑、角色一致性和SynthID水印。
Gemini Omni是图像模型吗?
不是。Gemini Omni输出视频。模型支持图像与文本、音频和视频一同作为输入,但生成的结果是一段视频。Google表示图像和音频输出模式已列入Gemini Omni路线图,但不包含在首发版本中。
在Morphic上如何使用Gemini Omni?
打开Morphic,将提示栏切换到视频模式,并在模型选择器中选择Gemini Omni。附加任意组合的文本、图像、音频和视频参考,然后运行Prompt。需要调整结果时,在下一条消息中说明即可,场景会保留先前的上下文。
Gemini Omni视频有多长?
Gemini Omni Flash片段在发布时上限为10秒。Google表示这一上限属于初期推广的部署决策,而非模型本身的硬性限制,未来版本中Gemini Omni的时长有望进一步延长。
Gemini Omni支持哪些输入?
Gemini Omni在同一个Prompt中支持文本、图像、音频和视频的任意组合。首批支持的音频输入是声音参考,更广泛的音频输入和更多输出模式已在规划中。
Gemini Omni与Veo 3.1相比有何不同?
Veo 3.1是Google DeepMind的照片级写实视频模型,支持4K分辨率、原生音频和8秒片段,专注于广播级真实感。Gemini Omni Flash是其any-to-any的姐妹模型,时长较短(最长10秒),聚焦于多输入推理、对话式编辑以及跨编辑的持续角色一致性。Veo是写实专家,Gemini Omni是多模态导演。
Gemini Omni与Seedance 2.0相比有何不同?
Gemini Omni和Seedance 2.0都是多模态视频模型。Seedance 2.0每次生成支持最多12个混合素材,具备原生音频合成与音乐节拍同步,分辨率1080p,时长4到15秒。Gemini Omni Flash聚焦于逐轮对话式编辑以及Google的物理和现实世界推理,目前时长上限为10秒。
Gemini Omni的视频带水印吗?
带。Gemini Omni生成的每段视频都带有Google不可见的SynthID水印,用于AI来源标识。水印对观众不可见,并可在重新编码、缩放等常见编辑后依然保留。
Gemini Omni支持角色一致性吗?
支持。在同一段对话中,Gemini Omni某个镜头里出现的角色会在后续镜头和多轮编辑中保持相同的面孔、服装和声音,无需每一轮都重新上传参考。
Gemini Omni是什么时候发布的?
Google在2026年5月19日的Google I/O 2026上发布了Gemini Omni。Gemini Omni Flash是该系列的首个版本,图像和音频输出被列为未来计划新增的能力。

在 Morphic 上 Gemini Omni 试用

注册 Morphic,开始使用 Gemini Omni 进行创作。无需下载,无需设置,只需描述您的想法即可生成。