CLIP

CLIP(Contrastive Language-Image Pretraining)は、OpenAIが開発したニューラルネットワークで、大量の画像・テキストペアで学習し、テキストと画像の対応関係を理解します。画像を生成するのではなく、与えられた画像が与えられたテキスト記述にどれだけ合うかを評価するため、視覚コンテンツの評価・誘導・解釈に強力なツールとなります。

CLIPは画像とテキストの両方を共通の埋め込み空間に符号化し、意味的に近いものは視覚かテキストかを問わず近くに配置します。そのため、「海辺のゴールデンアワー」という文と夕焼けの画像を比較し、意味のある類似度スコアを付けられます。この能力により、CLIPは初期のテキスト誘導型画像生成において、生成プロセスをプロンプトに沿った出力へ導く中核となりました。2020年代初頭の多くの画像生成アーキテクチャがCLIPによる誘導を核に採用し、その影響はマルチモーダルAI全体に残っています。

AI生成に携わる制作者や実務者にとって、CLIPはモデルがプロンプトを視覚出力とどう照合・スコア付けするかを理解するための基礎知識として重要です。テキストと画像の対応づけにおける役割は、現代のAI生成システムが言語にどう反応するかの多くを支えており、分野の基礎的構成要素の一つです。

Can't find what you are looking for?
Contact us and let us know.
bg