テキストから画像
テキストから画像へ(Text-to-image)とは、書かれたテキストプロンプトが主入力であり生成画像が出力となるAI生成のモードで、モデルがプロンプトの言語を解釈し、記述された内容・スタイル・構図に対応する視覚的結果を合成する。ほとんどのAI画像生成プラットフォームの基本的なインタラクションモデルであり、見たいものを言葉で説明できる誰もがオリジナル画像の制作にアクセスできるようにした。
背後にある技術プロセスは、テキストプロンプトをモデルが処理できる表現にエンコードし、その表現で生成プロセスを条件づける——拡散モデルのノイズ除去ステップやトランスフォーマーの出力をプロンプトに一致する映像へと導く——ことである。テキストから画像への結果の品質は、モデルの学習データ(どの視覚概念を学習したか)、言語理解の洗練度、提供されるプロンプトの具体性と明確さに依存する。現代のテキストから画像モデルは、フォトリアルな映像、イラスト風スタイル、抽象的な構図、複雑な多要素シーンの生成で高い能力を発達させているが、正確なテキストの描画、正確な空間関係、オブジェクト数の一貫したカウントといった領域では依然として特徴的な弱点がある。
テキストから画像への生成は、多くのAI視覚ワークフローの出発点となることが多く、生成された画像はその後の生成の参照入力、画像から映像へのワークフローのフレーム、または単体の納品物として使われる。Morphicでは、複数モデルによるテキストから画像生成により、クリエイターが同じプロンプトを異なるモデルがどう解釈するかを探り、さらに発展させる前に創造的意図に最も合うアウトプットを選べる。