Text-to-image는 작성된 텍스트 프롬프트가 주 입력이고 생성 이미지가 출력인 AI 생성 모드로, 모델이 프롬프트의 언어를 해석하고 설명된 콘텐츠, 스타일, 구도에 대응하는 시각 결과를 합성합니다. 대부분의 AI 이미지 생성 플랫폼의 기초 상호작용 모델이며, 보고 싶은 것을 설명할 수 있는 누구나 오리지널 이미지 제작을 가능하게 했습니다.
기저 기술 과정은 텍스트 프롬프트를 모델이 처리할 수 있는 표현으로 인코딩한 뒤, 그 표현으로 생성 과정을 컨디셔닝하는 것을 포함합니다. diffusion 모델의 디노이징 스텝이나 transformer 출력을 프롬프트와 일관된 이미지로 유도합니다. Text-to-image 결과 품질은 모델의 트레이닝 데이터(어떤 시각 개념을 학습했는지), 언어 이해의 정교함, 제공된 프롬프트의 구체성·명확성에 달려 있습니다. 현대 text-to-image 모델은 포토리얼리스틱 이미지, 일러스트 스타일, 추상 구도, 복잡한 다요소 장면 생성에서 강한 역량을 갖추었으나, 정확한 텍스트 렌더링, 정확한 공간 관계, 객체 수의 일관된 카운팅 같은 영역에서는 특유의 약점이 남아 있습니다.
Text-to-image 생성은 많은 AI 시각 워크플로의 출발점이며, 생성 이미지는 이후 생성의 레퍼런스 입력, 이미지-투-비디오 워크플로의 프레임, 또는 단독 납품물로 쓰입니다. Morphic에서 여러 모델에 걸친 text-to-image 생성으로 크리에이터가 동일 프롬프트를 모델들이 어떻게 해석하는지 탐색하고, 더 발전시키기 전에 크리에이티브 의도에 가장 맞는 출력을 선택할 수 있습니다.