CLIP

CLIP(Contrastive Language-Image Pretraining)은 OpenAI가 개발한 신경망 모델로, 방대한 이미지-텍스트 쌍 데이터로 훈련하여 텍스트와 이미지의 관계를 이해합니다. 이미지를 생성하는 대신, 주어진 이미지가 주어진 텍스트 설명과 얼마나 잘 맞는지 평가하는 것을 학습해 시각 콘텐츠의 평가·유도·해석에 강력한 도구가 됩니다.

CLIP은 이미지와 텍스트를 모두 공유 임베딩 공간으로 인코딩하여, 시맨틱적으로 관련된 항목이 시각이든 텍스트든 가까이 배치되게 합니다. 따라서 CLIP은 석양 이미지와 "바다 위 골든 아워"라는 문구를 비교해 의미 있는 유사도 점수를 줄 수 있습니다. 이 능력으로 CLIP은 초기 텍스트 유도 이미지 생성 시스템의 기반이 되었고, 주어진 프롬프트에 맞는 출력으로 생성 과정을 이끄는 데 쓰였습니다. 2020년대 초 많은 영향력 있는 이미지 생성 아키텍처가 CLIP 가이던스를 핵심 구성 요소로 사용했으며, 그 영향은 멀티모달 AI 전반에 남아 있습니다.

AI 생성을 다루는 제작자와 실무자에게 CLIP은 모델이 프롬프트를 어떻게 해석하고 시각 출력에 대해 점수를 매기는지 이해하는 배경 지식으로 의미 있습니다. 텍스트-이미지 정렬에서의 역할이 현대 AI 생성 시스템이 언어에 반응하는 방식의 상당 부분을 뒷받침합니다.

Can't find what you are looking for?
Contact us and let us know.
bg