DALL-E
DALL-Eは、OpenAIが開発したテキストプロンプトから画像を生成するAI画像生成モデルで、トランスフォーマーベースのニューラルネットワークを用いています。2021年1月にリリースされ、自然言語の記述から高品質で一貫した画像合成を示した最初の大規模テキストto画像モデルの一つとなり、AI生成画像への広い関心を呼びました。
モデルは大量のテキスト・画像ペアのデータセットで学習し、言語と視覚概念の関係を理解して、学習中に明示的には見ていない物体・シーン・概念の画像を生成できるようになりました。DALL-Eは「アボカドの形をしたアームチェア」や「『openai』と書かれた店先」のように、異なる概念を創造的に組み合わせた画像を生成できました。初代DALL-Eには解像度や一貫性に限界がありましたが、大規模なテキストto画像生成の実現可能性を示し、後のモデルの土台を作りました。
DALL-Eのリリースは、AIの創造能力に対する世間の認識の転換点となり、AIが既存コンテンツのリミックスではなく、新奇で想像力に富んだ画像を生成できることを示しました。モデル名は、シュルレアリストのサルバドール・ダリとピクサーのキャラクターWALL-Eを組み合わせた造語で、プロジェクトの創造的・技術的野心を反映しています。