テクスチュアルインバージョン
テキストゥアルインバージョン(Textual inversion)とは、モデルの重みを変更せず、モデルの既存のテキスト埋め込み空間内でそれを表す新しいトークンを学習させることで、AI画像生成モデルに新しい概念——特定の人物、オブジェクト、スタイル、視覚的特徴——を教える技法である。モデル全体をファインチューンするのではなく、テキストゥアルインバージョンは学習された単一の新しい語を追加し、プロンプトに含めると学習させた特定の視覚概念を確実に呼び出す。
この技法は、新しいテキスト埋め込みベクトルを最適化し、モデルがそれを処理すると生成アウトプットが学習時に提供された少数の参照画像に一致するようにすることで機能する。学習されたトークンはプロンプト内で通常の語のように振る舞い、他の記述言語と組み合わせたり、スタイル修飾子と使ったり、異なる構図の文脈に置いたりでき、モデルは学習した視覚概念をそれに応じて適用する。テキストゥアルインバージョンはフルモデルのファインチューンよりはるかに少ない学習画像と計算量で済み、共有して互換モデルで使える小さなポータブルファイルを生成する。比較的単純で視覚的に特徴的な概念の捕捉に最適であり、複雑または変動の大きい被写体には向かない。
テキストゥアルインバージョンは、AIモデルに特定の視覚概念を教える必要があるクリエイターが利用できる、LoRAやDreamBoothと並ぶいくつかのパーソナライゼーション技法の一つである。これらのアプローチのトレードオフ——軽量でポータブルな概念捕捉にはテキストゥアルインバージョン、より強力で柔軟な被写体適応にはLoRA、被写体の深い統合にはDreamBooth——を理解することで、一貫性と品質の要件に合った技法を選べる。