Gemini Omni支持哪些输入？

Gemini Omni在一个Prompt中支持文本、图像和视频，并把它们当作一个整体简报来推理，而不是简单拼接。你可以传入多张参考图，把特定主体带入场景。单独上传音频参考正在逐步开放，尚未在所有地区可用，图像和音频输出也已列入路线图。

Gemini Omni会生成音频吗？

会。每段Gemini Omni片段都会在同一次处理中生成自己的同步音频，因此对白、音效、环境声和音乐都与动作对齐，而不是事后叠加。在描述镜头的同一个Prompt中说明声音即可。

Gemini Omni的对话式编辑如何运作？

首条之后的每个Prompt都是在编辑同一个场景，而不是开始一次新的生成。描述你想要的那一处改动，例如一个新物体、重新布光的背景，或一个不同的动作，镜头会保留其角色、光线和一致性。当你优化同一个场景，而不是切换场景或要求大幅度的镜头摇移时，一致性最强。

Gemini Omni的片段有多长，分辨率是多少？

Gemini Omni Flash生成的片段最长10秒，分辨率720p，画幅为16:9或9:16。没有视频延展或插帧功能，因此规划一个能在片段内完成的单一动作。每段片段都默认带有Google不可见的SynthID水印。

在Morphic上如何使用Gemini Omni？

打开Morphic，将提示栏切换到视频模式，并在模型选择器中选择Gemini Omni。附加文本、一张图像、一段视频或它们的组合，描述镜头及其音频，然后运行Prompt。要修改结果时，在下一条消息中说明即可，场景会保留先前的上下文。

Gemini Omni Flash：完整指南、Prompt与功能

Gemini Omni的功能与能力

Gemini Omni是Google首款any-to-any模型，于2026年5月19日在Google I/O 2026上发布。首批发布的Gemini Omni Flash支持文本、图像和视频作为输入，生成带同步音频的视频，并以Gemini的现实世界知识为基础。片段最长10秒，分辨率720p，画幅为16:9或9:16，你可以通过对话来优化，而不必反复重新生成。

功能	作用	适用场景
any-to-any输入	在同一个Prompt中组合文本、图像和视频，并对它们整体推理，融合为一个镜头，而不是简单拼接	多参考素材简报、分镜
原生音频	在同一次处理中为每段片段生成同步音频，无需单独的音频步骤	对话场景、环境声、音乐
对话式编辑	用自然语言的后续指令优化片段：替换物体、重新布光，或在同一场景上改变动作	无需重新生成即可迭代镜头
角色与物理一致性	在多轮编辑中保持角色、物体和风格一致，并具备真实的重力、动能和流体动力学	复现角色、真实运动
现实世界知识	借助Gemini对历史、科学和文化的理解，让场景细节准确无误	解说内容、准确细节
SynthID水印	每段片段都带有不可见的来源水印，可在重新编码和缩放后依然保留	可追溯、可识别的AI内容

any-to-any输入

一个Gemini Omni Prompt可以同时接收文本、图像和视频。模型不是把这些输入依次拼接在一起，而是把它们当作一个整体简报来推理，因此一张人物参考图、一张场景照片和一句文字节拍都会共同塑造同一段生成的镜头。你还可以传入多张参考图，把特定主体带入场景中。单独上传音频参考正在逐步开放，尚未在所有地区可用，而在Google的Gemini应用中，你可以通过Avatars用自己的声音出现在视频里。

原生音频

每段片段都会在同一次处理中生成自己的同步音频，因此对白、音效、环境声或音乐会随着画面一起返回，而不是一段无声的渲染。在描述镜头的同一个Prompt中说明你想要的声音，音频便会与动作对齐，而不是事后叠加。

对话式编辑

编辑就是Prompt。用自然语言的后续指令优化片段：「把雕塑做成气泡状」、为场景重新布光、改变某个动作，或添加一个元素，模型会保留镜头的其余部分。它在多轮之间保持上下文，因此多轮编辑会在同一个场景上叠加，而不是从头重来。

角色与物理一致性

角色、物体和风格在对话式编辑中保持一致，并以对重力、动能和流体动力学等力学的更强理解为支撑。当你优化同一个场景时，一致性最强。切换场景或要求大幅度的镜头摇移可能会导致偏移，因此把大改动留到各自单独的生成中。

现实世界知识

Gemini Omni以Gemini对历史、科学和文化的知识为场景打底，因此时代细节、物理表现和文化特征都能保持准确，而不会滑向千篇一律的AI质感。正是这种打底，让它在解说内容以及任何细节必须准确的镜头中都很有用。

SynthID水印

每段片段都带有Google不可见的SynthID水印，用于AI来源标识。它默认开启，对观众不可见，并能在重新编码和缩放等常见转换后依然保留，因此生成的素材在整条制作链路中都保持可识别。

同一个角色在窗边读信，柔和的晨光立即试用

电影级黑色电影

雨夜东京小巷中的侦探，钠灯反射，蓝青与琥珀色黑色电影

Edit prompt

产品发布

前卫运动鞋悬浮于钛底座上方，硬质主光，发布氛围

Edit prompt

自然解说

露珠叶片上凝成水晶皇冠的水滴，日出逆光微距

Edit prompt

虚拟主持人

直视镜头的从容主持人，温暖三点布光，85mm 虚化

Edit prompt

建筑漫游

黄金时刻光线照亮粗野主义混凝土别墅，长影，浮尘

Edit prompt

故事节拍

雨窗边读信的女子，神情从忧虑转为释怀

Edit prompt

如何充分发挥Gemini Omni

Gemini Omni青睐这样一种简报：把每个参考都当作同一个场景的一部分，为音频命名，并通过对话来编辑，而不是反复重新生成。少数几个做法就能带来大部分质量提升：

一次性加载所有参考。文本、一张图像和一段视频可以放进同一个Prompt，因为模型会对它们整体推理，而不是依次拼接。添加参考图，把特定主体带入场景。
始终为音频命名。用自然语言写下对白、音效、环境声或音乐，让片段返回时声音与动作对齐，而不是无声。
通过对话来编辑。当镜头已经接近理想时，在下一条消息中描述你想要的那一处改动，而不是从头再来。场景会保留其角色、光线和一致性。
把节拍控制在10秒以内。没有视频延展或插帧功能，因此规划一个能在片段内完成的单一动作，而不要指望之后再加长。
把切换场景留到各自的生成中。当你优化同一个场景时一致性最强；生硬地切换场景或大幅摇移，更适合作为一个全新的镜头。
明确指挥你在意的物理表现。指出重量、碰撞，或流体应如何运动，因为真实物理是一个值得引导的强项。

Gemini Omni Prompt指南

一个出色的Prompt读起来像一份简短的镜头简报，而不是一句说明文字。有两点决定结果：清晰列出镜头中包含什么，以及用具体措辞取代含糊措辞。

一个Prompt应包含什么

要素	应包含的内容	示例
主体	画面中是谁或是什么，具体描述	身着炭灰色西装、站在玻璃桌前的一位演播室主持人
运动	什么在动，如何动	她转向镜头并做出手势
镜头	景别加上一个运镜	中景，缓慢推进
音频	对白、音效、环境声或音乐	她说「欢迎回来」；柔和的演播室房间声
格式	时长与宽高比	10秒，16:9

通过对话来编辑

编辑就是Prompt。保留场景，只命名要改动的地方，让其余一切从上一轮延续下来。

在同一场景上的后续编辑

同一位主持人和同一张桌子，光线不变。把她的西装换成深绿色，并在最后两秒加入一个缓慢推进。保留此前的房间声。

编辑提示词

弱Prompt与强Prompt

明确写出镜头、运动及其时机，以及音频，而不是听天由命。

关注点	弱	强
镜头	夜晚城市中的一个女子	手持跟拍镜头，跟随一位女子穿过被雨水浸湿的街道，店铺灯光倒映在路面上，浅景深
运动与时机	门开了，有人走了进来	门缓缓推开，一个人影在稍作停顿后走进来，随后镜头稳定为一个中景
音频	一位厨师在摆盘	厨师摆盘的特写，蒸汽升腾。音频：平底锅的滋滋声、柔和的厨房环境声，以及一句「上菜」。

常见错误

让Prompt保持无声：始终至少写一条声音提示，因为模型会随视频一起生成音频。
用重新生成代替编辑：当镜头已经接近时，通过对话请求那一处改动，让角色和一致性得以保持。
指望延展：没有视频延展功能，因此把一个动作控制在10秒的片段内。
密集的画面文字：文字渲染和非常复杂的运动仍是薄弱环节，因此让字幕保持简短，或在后期添加。

Gemini Omni Flash：完整指南、Prompt与功能