Question 1

CLIP은 무엇의 약자인가요?

Accepted Answer

CLIP은 Contrastive Language–Image Pre-training의 약자입니다. OpenAI가 개발한 모델로, 많은 수의 이미지-텍스트 쌍으로 학습하여 이미지와 텍스트를 잇는 법을 배웁니다.

Question 2

CLIP은 이미지 생성에서 어떻게 작동하나요?

Accepted Answer

이미지 생성 파이프라인에서 CLIP의 텍스트 인코더는 작성된 프롬프트를 디퓨전 모델을 유도하는 수치 표현(임베딩)으로 변환합니다. 모델은 이 표현을 사용해 생성하는 결과를 설명과 일치하도록 이끌어 갑니다.

Question 3

CLIP은 OpenAI가 개발했나요?

Accepted Answer

네. CLIP은 OpenAI가 개발해 2021년 연구 논문에서 소개했습니다. 이후 OpenCLIP 같은 오픈 소스 버전과 후속작이 연구 커뮤니티에 의해 개발되었습니다.

Question 4

CLIP 점수란 무엇인가요?

Accepted Answer

CLIP 점수는 CLIP의 공유 임베딩 공간에서 이미지와 텍스트의 유사도를 계산해, 생성된 이미지가 주어진 텍스트 프롬프트와 얼마나 일치하는지 측정하는 지표입니다. CLIP 점수가 높을수록 프롬프트 정렬이 좋다는 뜻입니다.

Question 5

모든 AI 이미지 생성기가 CLIP을 사용하나요?

Accepted Answer

대부분의 디퓨전 기반 이미지 생성기는 CLIP이나 유사한 비전-언어 모델을 텍스트 인코더로 사용합니다. 일부 최신 모델은 T5 같은 대안을 사용하거나 더 풍부한 프롬프트 이해를 위해 여러 인코더를 결합하지만, CLIP은 여전히 가장 널리 사용되는 기반입니다.

Question 6

CLIP Interrogator란 무엇인가요?

Accepted Answer

CLIP Interrogator는 CLIP 모델을 역으로 사용하는 도구입니다. 텍스트를 시각 개념으로 변환하는 대신, 이미지를 분석해 그것과 가장 잘 맞는 텍스트 설명을 생성합니다. 특정 시각 스타일을 재현할 수 있는 프롬프트를 발견하는 데 유용합니다.

CLIP

CLIP이란?