CLIP
CLIP이란?
CLIP은 단어와 이미지 사이의 연결을 이해하는 AI 모델로, 대부분의 AI 이미지 생성기 내부에서 텍스트 프롬프트를 생성 모델이 따를 수 있는 지침으로 번역하는 데 쓰입니다.
한눈에 보기
- 다른 이름
- Contrastive Language–Image pre-trainingCLIP 인코더비전-언어 모델
- 주요 용도
- 이미지 생성에서의 텍스트 프롬프트 인코딩의미적 이미지 검색이미지-텍스트 유사도 점수화디퓨전 모델 유도제로샷 이미지 분류
- 주로 쓰이는 도구
- Stable diffusionDALL-eMidjourneyCLIP interrogatorOpenCLIP
- 관련 용어
- Diffusion modelText encoderLatent spaceEmbeddingPrompt engineering
지금 만들어 볼까요?
장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요
단순하고 투명한 요금제, 속도 제한 없음, 무한한 Canvas로 창의력을 극대화하는 올인원 AI 크리에이티브 플랫폼.
다른 개념과의 비교
둘 다 이미지 생성을 위해 텍스트 프롬프트를 인코딩하는 데 쓰이지만, CLIP은 이미지-텍스트 쌍으로 공동 학습되어 강한 시각-의미 이해를 갖는 반면, T5는 더 풍부한 언어 구조를 인코딩하는 순수 언어 모델입니다. Flux 아키텍처를 사용하는 것들 같은 최신 생성 모델은 각각의 강점을 살리기 위해 두 유형의 인코더를 함께 결합하는 경우가 많습니다.
이렇게 생각해 보세요…
CLIP을 이미지의 언어와 단어의 언어를 모두 구사하는 만능 통역사라고 생각해 보세요. AI 이미지 생성기에 프롬프트를 입력하면 CLIP이 단어를 읽어 생성기가 시각적으로 이해할 수 있는 형태로 변환합니다. 마치 그림에 대한 글로 된 설명을 화가가 실제로 그릴 수 있는 시각적 개념으로 번역하는 것과 같습니다.
프로 팁
CLIP이 대부분의 텍스트 프롬프트 인코딩을 뒷받침하기 때문에, 시각적 특질, 조명, 구성, 스타일을 구체적인 용어로 묘사하는 프롬프트가 추상적인 정서적, 개념적 언어보다 더 신뢰할 수 있게 해석됩니다. CLIP은 분위기나 은유보다 시각적 묘사를 더 직접적으로 이해하기 때문입니다.
유형과 변형
- OpenAI의 원본 CLIP 모델 이후 수많은 변형과 후속작이 나왔습니다.
- OpenCLIP은 서로 다른 데이터셋으로 학습된 CLIP의 오픈 소스 재현 및 확장입니다.
- Google이 개발한 SigLIP은 더 나은 이미지-텍스트 정렬을 위해 CLIP의 학습 방식을 개선합니다.
- CLIP ViT 변형은 사용된 비전 트랜스포머 백본의 크기가 달라 역량과 연산 비용에 영향을 줍니다.
- 많은 이미지 생성 모델이 미세 조정되거나 확장된 CLIP 버전을 텍스트 인코더로 사용하며, 각각은 특정 유형의 프롬프트 언어를 이해하는 데 약간씩 다른 강점을 지닙니다.
Morphic에서 첫 장면을 만들어 볼까요?
Morphic 체험하기주요 활용 사례
- CLIP은 디퓨전 기반 이미지 및 비디오 생성 파이프라인 대부분에서 텍스트 인코더로 사용되어, 작성된 프롬프트를 생성을 유도하는 수치 표현으로 번역합니다.
- 스톡 라이브러리와 크리에이티브 도구의 의미적 이미지 검색을 구동합니다.
- CLIP Interrogator 도구는 이 모델을 역으로 사용해 이미지에 무엇이 담겨 있는지 자연어로 설명합니다.
- 또한 생성된 이미지가 주어진 프롬프트와 얼마나 일치하는지 측정하는 자동 평가에도 사용됩니다.
지금 만들어 볼까요?
장면을 연출하고, 캐릭터를 디자인하고, 한 편의 영화까지 완성하세요
단순하고 투명한 요금제, 속도 제한 없음, 무한한 Canvas로 창의력을 극대화하는 올인원 AI 크리에이티브 플랫폼.