CLIP
CLIP(Contrastive Language-Image Pretraining)是 OpenAI 开发的神经网络模型,通过在海量图文对上训练来学习文字与图像之间的关系。CLIP 不学习生成图像,而是评估给定图像与给定文字描述的匹配程度,因此是评估、引导和解读视觉内容的强大工具。
CLIP 将图像与文字都编码到共享嵌入空间,语义相近的项目无论视觉还是文字都会靠近。因此 CLIP 可将一张日落图与短语「海边黄金时刻」比较并给出有意义的相似度分数。该能力使 CLIP 成为早期文字引导图像生成系统的基础,被用于将生成过程导向与给定提示匹配的输出。2020 年代初许多有影响力的图像生成架构将 CLIP 引导作为核心组件,其影响在多模态 AI 的更大图景中延续。
对从事 AI 生成的创作者与从业者而言,CLIP 作为理解模型如何解读并以视觉输出评分提示的背景知识具有相关性。其在图文对齐中的角色支撑了现代 AI 生成系统对语言响应的很大一部分,是该领域的基础构件之一。