Bernini은 생성만큼이나 편집을 중심에 둔 ByteDance의 오픈소스 영상 모델입니다. MLLM 플래너가 지시를 읽고 무엇을 바꿔야 할지 판단한 뒤, Wan2.2 기반의 DiT 렌더러가 픽셀을 그립니다. 덕분에 실제 클립을 수정하면서도 언급하지 않은 부분은 그대로 둘 수 있습니다. 이 가이드는 Bernini이 무엇을 하는지, 사양, 프롬프트를 읽는 방식, 깔끔한 편집을 만드는 일관성 잠금, 그리고 작업별 프롬프트 구조를 다룹니다.
Bernini으로 무엇을 할 수 있나: 편집, 서브젝트 투 비디오, 생성
| 기능 | 하는 일 | 적합한 작업 |
|---|---|---|
| 일관성 잠금 편집 | 클립의 요소를 추가, 제거, 변경하면서 손대지 않은 영역은 고정한 채로 유지 | 오브젝트 추가/제거, 깔끔한 리터치 |
| 참조 기반 편집 | 참조 이미지나 두 번째 클립을 원본 영상에 적용 | 의상 교체, 제품 또는 화면 삽입 |
| 서브젝트 투 비디오 | 참조 이미지 속 인물이나 캐릭터를 새로운 장면에 배치 | 아바타, 캐릭터 작업, 시리즈 콘텐츠 |
| 모션 편집 | 클립 안에서 피사체가 하는 동작을 변경 | 재촬영 없이 동작 다시 잡기 |
| 이미지 + 영상 통합 | 한 모델이 텍스트 투 이미지, 이미지 편집, 텍스트 투 비디오, 영상 편집을 모두 처리 | 하나의 프롬프트 언어로 정지 이미지와 동영상 |
일관성 잠금 편집
플래너가 렌더러보다 먼저 의미를 확정하기 때문에, Bernini은 바꾸라고 요청하지 않은 부분을 그대로 유지합니다. 무엇을 편집할지 명시하고 무엇을 고정할지 명시하면, 손대지 않은 영역은 영상 전체에서 깜빡임이나 흐트러짐 없이 그대로 유지됩니다. 이것이 이 모델의 가장 강력한 편집 특성입니다.
참조 기반 편집
참조 이미지나 두 번째 클립을 넣으면 Bernini이 그것을 원본 영상에 적용합니다. 한 장의 정지 이미지로 움직이는 피사체에 의상을 입히거나, 제품 또는 화면 영상을 삽입해 원본 푸티지를 따라가게 할 수 있습니다. 나머지 원본 클립은 변경 부분 주위에서 그대로 유지됩니다.
서브젝트 투 비디오
참조 이미지를 전달하고 프롬프트에서 인덱스로 각각을 가리켜(image0, image1), 어떤 피사체나 속성이 어느 이미지에서 오는지 지정합니다. Bernini은 움직이는 동안에도 얼굴을 알아볼 수 있게 피사체를 새로운 장면으로 옮기며, 이는 ByteDance의 서브젝트 투 비디오 평가에서 돋보이는 결과입니다.
모션 편집
기존 클립 안에서 피사체가 하는 동작을 바꿉니다. 예를 들어 인물이 허리를 숙이는 대신 웅크리게 하면서, 정체성, 프레이밍, 조명, 배경은 그대로 유지됩니다. 테이크를 다시 촬영하지 않고 동작을 다시 잡습니다.
이미지 + 영상 통합
한 모델이 텍스트 투 이미지, 이미지 편집, 텍스트 투 비디오, 영상 편집을 모두 처리하므로, 정지 이미지와 움직이는 편집이 동일한 프롬프트 언어에서 나옵니다. 지시하는 방식 하나를 익히면 두 형식 모두에 적용할 수 있습니다.
Bernini 활용 사례
이미 촬영한 푸티지 정리하기
재촬영 없이 실제 클립에서 방해 요소를 제거하거나, 빠진 요소를 추가하거나, 디테일을 다시 스타일링하세요. 일관성 잠금이 샷의 나머지를 동일하게 유지합니다.

반복 등장하는 캐릭터 만들기
에피소드, 광고, 아바타 시리즈 전반에 걸쳐 같은 얼굴을 유지하세요. 서브젝트 투 비디오는 몇 장의 참조 이미지에서 인물의 정체성을 새로운 장면으로 옮깁니다.

가상 피팅과 제품 배치
참조 이미지로 움직이는 피사체에 의상을 교체하거나, 제품이나 화면 영상을 샷에 넣으면서 원본 클립은 그대로 유지하세요.

연기 바꾸기
다시 촬영하는 대신 테이크 속 동작을 다시 잡거나 피사체의 움직임을 조정하면서, 정체성, 프레이밍, 조명은 고정해 두세요.

Bernini 프롬프트 작성법
Bernini에서 품질의 대부분은 두 가지 습관에서 나옵니다.
- 설명이 아니라 지시를 쓰세요. 편집은 기존 클립을 바꾸는 작업이므로 프롬프트는 지시문입니다. 무엇을 추가, 제거, 변경할지, 그리고 어디에 할지 명시합니다. 생성(텍스트 투 비디오, 텍스트 투 이미지)에서는 평소처럼 장면 전체를 설명합니다.
- 무엇이 바뀌는지 명시한 다음, 무엇이 유지되는지 명시하세요. 렌더러는 어떤 영역이든 손댈 수 있으므로, 가장 안정적인 편집은 변경 사항을 명시한 뒤 움직이면 안 되는 모든 것을 고정합니다. 두 번째 습관이 바로 일관성 잠금이며, 다음에서 다룹니다.
상세하고 구조화된 지시는 간단한 지시를 능가합니다. Bernini의 플래너는 한 줄짜리 명령에 기대기보다 크기, 배치, 재질, 그리고 새 요소의 조명이 장면과 어떻게 맞물리는지를 풀어서 적을 때 더 잘 작동합니다.
일관성 잠금: 하나만 편집하고 나머지는 유지
렌더러는 손대지 않은 영역을 잘 유지하지만, 그것이 무엇인지 프롬프트가 알려줄 때만 그렇습니다. 패턴은 편집을 정확히 명시한 다음, 변하지 않고 유지되어야 할 모든 것을 나열하고 "그대로 유지"로 끝내는 것입니다. 제거도 같은 방식으로 작동합니다. 채울 부분을 설명한 뒤 주변을 고정하세요.
| 편집 | 약한 프롬프트 | 강한 프롬프트 |
|---|---|---|
| 오브젝트 추가 | 영상에 눈사람 넣기 | 강아지 옆 중앙 오른쪽 지면에 눈덩이 세 개로 만든 눈사람을 추가하고, 당근 코와 석탄 단추를 달고, 흐린 날씨의 빛과 부드러운 그림자에 맞춥니다. 강아지, 길, 나무는 그대로 유지합니다. |
| 의상 교체 | 셔츠 바꾸기 | 겉옷 셔츠를 참조 이미지의 옷으로 교체하고 자연스러운 드레이프로 착용합니다. 자세, 카메라, 조명, 배경, 움직임은 지금 그대로 정확히 유지합니다. |
| 서브젝트 투 비디오 | 이 참조들을 해변 영상에 사용 | image0의 조각상이 image3의 반바지를 입고, image4의 벤치에 석양 속에 앉아 음악에 맞춰 부드럽게 흔들립니다. image0의 조각상 석재 몸체와 image4의 해변 장면은 그대로 유지합니다. |
잠금을 건너뛰면 모델이 배경을 자유롭게 다시 그릴 수 있습니다. 여기에 한 문장만 쓰면 편집이 원본 샷에 원래 있던 것처럼 읽힙니다.
흔한 Bernini 프롬프트 실수 (그리고 해결법)
- 잠금 없음: 무엇이 그대로 유지되는지 명시하세요. 그러지 않으면 편집이 프레임 나머지로 번집니다.
- 간단한 지시: 세 단어짜리 명령 대신 새 요소를 크기, 배치, 재질, 조명까지 충분히 설명하세요.
- 모호한 참조: 서브젝트 투 비디오에서는 "이 참조들을 사용"이 아니라 각 이미지를 인덱스로 참조하고(image0, image1) 어떤 속성이 어디서 오는지 말하세요.
- 정체성을 움직이는 모션 편집: 움직임을 바꿀 때는 인물, 의상, 위치, 카메라를 고정해 동작만 바뀌게 하세요.
- 4K를 기대하기: 기본 렌더는 16fps의 480p로, 해상도보다 편집 충실도에 맞춰져 있습니다. 손대지 않은 영역을 얼마나 깔끔하게 유지하는지로 판단하세요.
Bernini 사양과 아키텍처
| 사양 | Bernini |
|---|---|
| 제공사 | ByteDance |
| 아키텍처 | MLLM 플래너(Qwen2.5-VL) + 14B DiT 렌더러(Wan2.2) |
| 모드 | 텍스트 투 이미지, 이미지 편집, 텍스트 투 비디오, 영상 편집, 모션 편집, 참조 편집, 서브젝트 투 비디오 |
| 해상도 | 480p (기본) |
| 프레임 레이트 | 16 fps |
| 라이선스 | Apache 2.0, 오픈 웨이트 |
자주 묻는 질문
변경 사항을 정확히 명시한 다음, 그대로 유지되어야 할 모든 것을 명시적으로 고정하세요. 피사체, 카메라, 조명, 배경, 그림자입니다. 한 줄짜리 대신 디테일을 적고, 한 번에 한 가지씩 편집하세요.
Bernini의 편집을 빛나게 만드는 프롬프트 작성 습관입니다. 편집을 설명한 뒤, 손대지 않은 영역을 그대로 유지하도록 고정합니다. Bernini은 그 영역을 잘 유지하지만, 그것이 무엇인지 프롬프트가 알려줄 때만 그렇습니다.
여러 참조 이미지를 전달하고 프롬프트에서 각각을 인덱스로 참조하세요(image0, image1, image2). 어떤 피사체나 속성이 어느 이미지에서 오는지 명시한 다음, 새로운 장면과 움직임을 설명합니다.
생성에는 텍스트만, 편집과 모션 편집에는 영상과 텍스트, 참조 기반 편집에는 영상과 참조 이미지 또는 클립, 서브젝트 투 비디오에는 참조 이미지 세트와 텍스트를 받습니다.
기본 렌더 설정은 16fps의 480p입니다. 이 릴리스는 최대 해상도보다 편집 충실도와 일관성을 우선하며, 더 높은 설정은 더 많은 연산 비용으로 가능합니다.

