초상 참조, 로케이션 사진, 음성 샘플, 한 줄 비트를 함께 넣어 보세요. Gemini Omni는 이 네 가지를 함께 읽고 하나의 일관된 영상을 만들어내며, 같은 장면을 대화로 계속 편집합니다. Veo 3.1, Seedance 2.0을 비롯한 나머지 영상 카탈로그와 함께 곧 Morphic에 추가됩니다.
Morphic에서 Gemini Omni 사용하는 방법
1.
Morphic에서 영상 모드 열기
Morphic 하단의 프롬프트바에서 영상 모드로 전환한 다음, 모델 선택기에서 Google의 Gemini Omni를 선택합니다.
2.
모델 선택기에서 Gemini Omni 선택
모델 선택기를 열고 영상 모델 목록에서 Gemini Omni를 선택합니다. 첫 번째로 제공되는 릴리스는 Google의 Omni 패밀리의 진입점인 Gemini Omni Flash입니다.
3.
입력 자료 넣기
Gemini Omni가 결합할 참조 자료를 첨부합니다. 텍스트, 이미지, 오디오 파일, 영상 클립 또는 이들의 자유로운 조합 모두 가능합니다. 모델은 입력을 단순히 이어 붙이지 않고 모두를 함께 추론하므로 최종 샷에 각 참조가 동시에 반영됩니다.
4.
생성한 뒤 대화로 계속 편집하기
프롬프트를 실행합니다. Gemini Omni는 최대 10초의 클립을 생성합니다. 의상 변경, 배경 교체, 액션 타이밍 조정이 필요하다면 다음 메시지로 요청하세요. 장면은 앞선 맥락을 기억하므로 편집은 기존 샷 위에서 이루어집니다.
Gemini Omni란?
Gemini Omni는 2026년 5월 19일 Google I/O 2026에서 공개된 Google 최초의 any-to-any 멀티모달 모델입니다. 첫 릴리스인 Gemini Omni Flash는 텍스트·이미지·오디오·영상을 입력으로 받고 영상을 출력하며, 모든 클립에 대화형 편집·캐릭터 일관성·SynthID 워터마킹을 적용합니다. Google은 이미지·오디오 출력은 Gemini Omni 패밀리에 추후 추가될 예정이라고 밝혔습니다.
Morphic에서 Gemini Omni는 Veo 3.1, Seedance 2.0, Kling을 비롯한 영상 카탈로그와 함께 영상 모델 선택기에 자리하고 있습니다.
Gemini Omni의 기능과 역량
Gemini Omni any-to-any 입력
한 번의 Gemini Omni 프롬프트로 텍스트·이미지·오디오·영상을 동시에 받습니다. 입력을 순차적으로 이어 붙이지 않고 하나의 브리프로 함께 추론하므로, 초상 참조·로케이션 사진·음성 샘플·짧은 텍스트 비트가 모두 같은 샷에 영향을 줍니다. 음성 참조는 출시 시점에 지원되는 첫 오디오 입력 방식이며, 더 폭넓은 오디오 입력은 로드맵에 있습니다.
대화형 Gemini Omni 편집
Gemini Omni의 모든 지시는 이전 지시 위에 쌓입니다. 다음 메시지로 의상 변경, 배경 교체, 액션 타이밍 조정, 장면 확장을 요청할 수 있습니다. 샷은 앞선 맥락을 기억하므로 새 생성을 처음부터 시작하는 대신 기존 장면 위에서 편집이 이루어집니다.
Gemini Omni 캐릭터·장면 일관성
하나의 Gemini Omni 샷에서 등장한 캐릭터는 같은 대화 안에서 컷이 바뀌거나 후속 편집을 거쳐도 얼굴·의상·목소리를 유지합니다. 모델은 턴 사이에 조명과 연속성도 유지하므로 1번 샷에서 등장한 인물이 3번 샷에서도 그대로 알아볼 수 있습니다.
물리 기반 정확한 모션과 현실 추론
Gemini Omni는 물리·문화·역사·과학에 대한 이해를 자신이 생성하는 장면에 적용합니다. 중력, 무게, 충돌, 유체의 거동은 실제 규칙을 따르고, 역사·문화의 디테일도 일반적인 AI 텍스처로 흘러가지 않고 그대로 유지됩니다. 결과적으로 단순히 매끄러운 것이 아니라 움직임이 옳아 보이는 영상이 나옵니다.
일관된 화면 속 목소리를 위한 음성 참조
텍스트·이미지와 함께 짧은 음성 샘플을 제공하면 Gemini Omni가 생성된 영상에서 해당 목소리를 일관되게 유지합니다. 같은 진행자가 여러 영상에 등장해야 하는 아바타 기반 설명 영상, 브랜드 스포크스퍼슨 클립, 숏폼 소셜 콘텐츠에 유용합니다.
모든 Gemini Omni 영상에 SynthID 워터마크
Gemini Omni가 생성하는 모든 클립에는 AI 출처 표시를 위한 Google의 비가시 SynthID 디지털 워터마크가 포함됩니다. 시청자에게는 보이지 않으며 재인코딩·리사이즈 같은 일반적인 변환에도 유지되므로, AI 생성 자료가 전체 제작 흐름에서도 식별 가능한 상태로 남습니다.
FAQs
Gemini Omni는 Google 최초의 any-to-any 멀티모달 모델입니다. 첫 릴리스인 Gemini Omni Flash는 텍스트·이미지·오디오·영상을 입력으로 받고 영상을 출력하며, 모든 클립에 대화형 편집·캐릭터 일관성·정확한 물리·SynthID 워터마킹을 적용합니다.
Morphic을 열어 프롬프트바를 영상 모드로 전환하고, 모델 선택기에서 Gemini Omni를 선택합니다. 텍스트, 이미지, 오디오, 영상 또는 임의의 조합을 첨부하여 프롬프트를 실행합니다. 결과를 수정하려면 다음 메시지에서 요청하면 되며, 장면은 이전 맥락을 그대로 유지합니다.
아닙니다. Gemini Omni의 출력은 영상입니다. 텍스트·오디오·영상과 함께 이미지를 입력 모달리티 중 하나로 받지만 생성 결과는 영상 클립입니다. Google은 이미지·오디오 출력이 Gemini Omni 패밀리에 추후 추가될 예정이라고 밝혔습니다.
Gemini Omni Flash 클립은 출시 시점 최대 10초로 제한됩니다. Google은 이 제한을 모델의 한계가 아니라 배포 결정으로 설명했으므로, 향후 릴리스에서는 더 긴 Gemini Omni 길이도 가능합니다.
Gemini Omni는 한 번의 프롬프트 안에서 텍스트·이미지·오디오·영상을 자유롭게 조합해 받습니다. 음성 참조는 출시 시점에 지원되는 첫 오디오 입력 방식이며, 더 폭넓은 오디오 입력은 로드맵에 있습니다.
Veo 3.1은 4K 해상도, 네이티브 오디오 합성, 8초 클립을 지원하는 Google DeepMind의 포토리얼리스틱 영상 모델로 방송 품질의 사실성에 최적화되어 있습니다. Gemini Omni Flash는 이의 any-to-any 형제 모델로, 최대 10초로 제한되지만 멀티 입력 추론, 대화형 편집, 편집 사이에도 유지되는 캐릭터 일관성에 초점을 둡니다.
Gemini Omni와 Seedance 2.0 모두 멀티모달 영상 모델입니다. Seedance 2.0은 한 번의 생성에 최대 12개의 혼합 에셋을 받고 네이티브 오디오 합성과 음악 비트 싱크를 지원하며 1080p, 4~15초 길이입니다. Gemini Omni Flash는 턴 단위 대화형 편집과 Google의 물리·현실 추론에 중점을 두며 현재 10초로 제한됩니다.
SynthID는 AI 생성 콘텐츠를 위한 Google의 비가시 워터마크입니다. Gemini Omni가 생성하는 모든 영상에는 기본값으로 포함되어 있습니다. 시청자에게는 보이지 않으며 재인코딩·리사이즈 같은 일반적인 편집을 거쳐도 유지되므로, AI 생성 자료가 제작 흐름 전체에서도 식별 가능한 상태로 남습니다.
Google은 2026년 5월 19일 Google I/O 2026에서 Gemini Omni를 공개했습니다. Gemini Omni Flash는 이 패밀리의 첫 번째 릴리스이며, 이미지·오디오 출력은 향후 추가가 예정되어 있습니다.


