멀티모달

Gemini Omni

Google DeepMind 제공

Google 최초의 any-to-any AI 모델. 텍스트·이미지·오디오·영상을 입력하고, 텍스트·이미지·오디오·영상을 출력합니다.

Gemini Omni

주요 기능

기술 사양

Omni Flash

Google Gemini Omni 패밀리의 첫 모델

Video

이미지·오디오 출력은 Gemini Omni 로드맵에 포함

Up to 10s

Flash 클립은 출시 시점 최대 10초로 제한, 접근성 확대 목적

Text, image, audio, video

하나의 Gemini Omni 프롬프트에서 자유롭게 조합

Voice references

음성 샘플 우선 지원, 전체 오디오 입력은 추후 추가

SynthID

모든 Gemini Omni 출력에 비가시 AI 출처 표시 워터마크

May 19, 2026

Google I/O 2026에서 공개

Google DeepMind

Any-to-any 영상 생성을 위한 Veo의 후속 포지셔닝

활용 사례

멀티 입력 스토리보딩

캐릭터 참조 이미지, 로케이션 사진, 음악 큐, 한 줄 비트를 함께 넣으면 Gemini Omni가 샷을 구성합니다. 같은 장면을 후속 프롬프트로 반복 수정할 수 있습니다.

대화형 영상 편집

기존 클립을 일상 언어로 묘사해 편집합니다. 의상 변경, 배경 교체, 조명 조정, 비트 타이밍 변경까지. Gemini Omni는 나머지 샷을 안정적으로 유지합니다.

마케팅 영상

브랜드 컬러, 제품 형태, 화면 위 텍스트를 살린 광고 컷을 생성합니다. 제품 사진, 보이스오버 참조, 장면 브리프를 한 프롬프트에 담아 완성된 광고를 만들 수 있습니다.

교육용 설명 영상

물리·현실 추론을 활용해 과학·역사·공학 개념을 시각화합니다. 정보의 정확성을 유지하면서 깔끔하고 발표용으로 적합한 영상을 얻을 수 있습니다.

아바타·스포크스퍼슨 영상

초상 이미지와 음성 참조를 결합하면 Gemini Omni가 여러 짧은 영상에서 같은 진행자 영상을 만들어냅니다. 강의 콘텐츠, 제품 설명, 소셜 숏폼에 적합합니다.

소셜 숏폼

10초 길이의 클립은 YouTube Shorts, Reels, TikTok 길이에 잘 맞습니다. 다시 프롬프트를 짜지 않고 대화로 변형을 만들어, 가장 잘 맞는 버전을 골라 게시할 수 있습니다.

프롬프트 예시

시네마틱 느와르

시네마틱 느와르

비에 젖은 도쿄 골목의 형사, 나트륨등 반사, 틸·앰버 느와르

Edit prompt
제품 런칭

제품 런칭

티타늄 받침 위에 떠오른 아방가르드 스니커즈, 강한 키 라이트, 런칭 무드

Edit prompt
자연 설명

자연 설명

이슬 잎에 크리스털 왕관처럼 멈춘 물방울, 일출 역광 매크로

Edit prompt
아바타 진행자

아바타 진행자

렌즈를 응시하는 차분한 진행자, 따뜻한 3점 조명, 85mm 보케

Edit prompt
건축 워크스루

건축 워크스루

브루탈리즘 건축을 비추는 골든아워 빛, 긴 그림자, 떠도는 먼지

Edit prompt
스토리 비트

스토리 비트

비 내리는 창가에서 편지를 읽는 여인, 걱정에서 안도로

Edit prompt

간단한 가격

오늘 무료로 시작하고 언제든지 업그레이드하거나 취소할 수 있습니다.

Basic

$0/
청구 금액 $0

500 월간 크레딧

1 명 전용

모든 모델

워크플로

Standard

$0/
청구 금액 $0

2800 월간 크레딧

1 명 전용

모든 모델

워크플로

Pro

$0/
청구 금액 $0

6000 공유 월간 크레딧

1 사용자

+ 최대 4 명 추가 비용으로 추가 가능

모든 모델

워크플로

Pro Max

$0/
청구 금액 $0

24000 공유 월간 크레딧

1 사용자

+ 최대 9 명 추가 비용으로 추가 가능

모든 모델

워크플로

Enterprise

더 높은 제한

사용자 정의

가격 및 청구 조건

무제한 크레딧
맞춤형 시트 제한
모든 모델
워크플로
Pricing Gradient

Free

For playing around

$0

forever free

최대 20 크레딧
1명 전용
일부 모델
워크플로

자주 묻는 질문

Gemini Omni란 무엇인가요?
Gemini Omni는 Google I/O 2026에서 공개된 Google 최초의 any-to-any 멀티모달 모델입니다. 첫 릴리스인 Gemini Omni Flash는 텍스트·이미지·오디오·영상을 입력으로 받고 영상을 출력하며, 모든 클립에 대화형 편집·캐릭터 일관성·SynthID 워터마킹을 적용합니다.
Gemini Omni는 이미지 모델인가요?
아닙니다. Gemini Omni의 출력은 영상입니다. 텍스트·오디오·영상과 함께 이미지를 입력으로 받지만 결과물은 영상 클립입니다. Google은 이미지·오디오 출력 방식이 Gemini Omni 로드맵에는 포함되어 있으나 초기 출시 범위는 아니라고 밝혔습니다.
Morphic에서 Gemini Omni를 어떻게 사용하나요?
Morphic을 열어 프롬프트바를 영상 모드로 전환하고, 모델 선택기에서 Gemini Omni를 선택합니다. 텍스트·이미지·오디오·영상을 임의의 조합으로 첨부해 프롬프트를 실행합니다. 결과를 수정하려면 다음 메시지에서 요청하면 되며, 장면은 이전 맥락을 그대로 유지합니다.
Gemini Omni 영상의 길이는 얼마나 되나요?
Gemini Omni Flash 클립은 출시 시점 최대 10초로 제한됩니다. Google은 이 길이를 모델의 절대적 한계가 아니라 초기 롤아웃에서 접근성을 넓히기 위한 배포 결정으로 설명했으며, 향후 릴리스에서는 더 긴 Gemini Omni 길이도 가능합니다.
Gemini Omni는 어떤 입력을 받나요?
Gemini Omni는 한 번의 프롬프트 안에서 텍스트·이미지·오디오·영상을 자유롭게 조합해 받습니다. 음성 참조는 첫 번째로 지원되는 오디오 입력 방식이며, 더 폭넓은 오디오 입력과 추가 출력 방식이 계획되어 있습니다.
Gemini Omni와 Veo 3.1의 차이는?
Veo 3.1은 4K 해상도, 네이티브 오디오, 8초 클립을 지원하는 Google DeepMind의 포토리얼리스틱 영상 모델로 방송 품질의 사실성에 최적화되어 있습니다. Gemini Omni Flash는 이의 any-to-any 형제 모델로, 길이는 짧지만(최대 10초) 멀티 입력 추론, 대화형 편집, 편집 사이에도 유지되는 캐릭터 일관성에 초점을 둡니다. Veo는 사실성 전문, Gemini Omni는 멀티모달 디렉터에 해당합니다.
Gemini Omni와 Seedance 2.0의 차이는?
Gemini Omni와 Seedance 2.0 모두 멀티모달 영상 모델입니다. Seedance 2.0은 한 번의 생성에 최대 12개의 혼합 에셋을 받고 네이티브 오디오 합성과 음악 비트 싱크를 지원하며 1080p, 4~15초 길이입니다. Gemini Omni Flash는 턴 단위 대화형 편집과 Google의 물리·현실 추론에 중점을 두며 현재 10초로 제한됩니다.
Gemini Omni에는 워터마크가 포함되나요?
네. Gemini Omni가 생성한 모든 영상에는 AI 출처 표시를 위한 Google의 비가시 SynthID 워터마크가 포함됩니다. 시청자에게는 보이지 않으며 재인코딩·리사이즈 같은 일반적인 편집을 거쳐도 유지됩니다.
Gemini Omni는 캐릭터 일관성을 지원하나요?
네. 하나의 Gemini Omni 샷에서 등장한 캐릭터는 같은 대화 안에서 컷이 바뀌거나 후속 편집을 거쳐도 얼굴, 의상, 목소리를 유지하며, 매번 참조 이미지를 다시 업로드할 필요가 없습니다.
Gemini Omni는 언제 출시되었나요?
Google은 2026년 5월 19일 Google I/O 2026에서 Gemini Omni를 공개했습니다. Gemini Omni Flash는 이 패밀리의 첫 번째 릴리스이며, 이미지·오디오 출력은 향후 추가가 예정되어 있습니다.