Stable Diffusion
Stable Diffusionとは?
Stable Diffusionは、テキスト記述から画像を生成する無料のオープンソースAIモデルです。誰でもダウンロードして改変できるため、膨大な数のAIクリエイティブツールの基盤となっています。
ひと目で分かる
- Type of model
- オープンソースの潜在拡散テキスト・トゥ・イメージ生成モデル
- Developed by
- Stability AI、ミュンヘン大学(LMU)とRunway MLの研究貢献を伴う
- Key capability
- 高品質なテキスト・トゥ・イメージ生成、img2img、インペインティング、アウトペインティング。ファインチューニングされたモデルと拡張機能の大きなエコシステムのための基礎的アーキテクチャ
- How it fits in AI workflow
- 画像生成、コンセプトアート、キャラクターと環境のデザイン、img2img洗練、コンポジットのサポート、そして多くの特化した画像・動画生成ツールのベースアーキテクチャとして使われる
- 関連用語
- Diffusion modelCLIPLoRAControlNetLatent spaceMidjourneyAUTOMATIC1111
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
Stable Diffusion 対 Midjourney:Stable Diffusionはオープンソースで、ローカルで実行でき、ファインチューニングや拡張機能を通じた深いカスタマイズを提供します。一方Midjourneyはローカル展開のないホスト型のプロプライエタリサービスです。Midjourneyは通常、より少ないプロンプトの労力で、すぐに美的に磨かれた結果を生み出します。一方Stable Diffusionは、プロフェッショナルおよび研究のワークフローのために、はるかに高い技術的制御、カスタマイズ性、柔軟性を提供します。
プロのヒント
制作全体で一貫したキャラクター生成のために、Stable Diffusionを使ってキャラクターの10〜20枚の画像でLoRAを訓練し、それからそのLoRAをすべての画像生成にわたって使ってください。これにより、プロンプト記述だけよりもはるかに信頼できるキャラクターのアイデンティティが得られ、AIキャラクターの一貫性ワークフローの標準的な技法となっています。
種類とバリエーション
- Stable Diffusionはいくつかの主要バージョンでリリースされてきました。SD 1.
- 4、SD 1.
- 5、SD 2.
- 0、SD 2.
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
Stable Diffusionは、コンセプトアートやビジュアル開発アセットの生成、LoRA訓練を通じた一貫したAIキャラクターの作成、背景や環境のイメージの制作、ラフなスケッチやリファレンス画像のimg2img洗練、画像編集や拡張のためのインペインティングとアウトペインティング、ストーリーボードフレームの生成、3Dやコンポジットのワークフローのためのテクスチャやアセットの制作、そしてカスタムAI画像パイプラインの基盤レイヤーとして使われます。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
Stable Diffusionは、潜在拡散プロセスを使ってテキストプロンプトから画像を生成するオープンソースのAIモデルです。2022年にStability AIによってリリースされ、AI画像生成の最も広く使われる基盤の一つとなりました。
はい、Stable Diffusionのモデルウェイトは自由にダウンロードして使えます。ローカルで実行するには適切なGPUハードウェアが必要です。Stable Diffusionを使う多くのウェブベースのツールは、ローカルセットアップを必要とせずに無料またはサブスクリプションベースのアクセスを提供します。
異なるバージョン(SD 1.5、SD 2.1、SDXL、SD 3)は、それぞれ画像品質、解像度、プロンプト理解、アーキテクチャ設計の改善を提供します。SD 1.5は、その大きなコミュニティのファインチューンライブラリのため広く使われ続けています。SDXLとSD 3はより高い解像度と改善された品質を提供します。
LoRA(Low-Rank Adaptation)は、Stable Diffusionで使われる軽量なファインチューニング手法で、小さな画像セットでモデルを訓練し、特定のキャラクター、スタイル、オブジェクトを一貫して生成するように適応させます。LoRAは共有してベースモデルに適用できる小さなファイルです。
ControlNetは、Stable Diffusionの拡張機能で、空間的条件付けを加えます。エッジマップ、深度マップ、ポーズスケルトン、その他の構造化された入力を使って、生成画像の構図と構造に対しクリエイターにはるかに精密な制御を与えます。
Stable Diffusion自体は主に画像生成モデルですが、AnimateDiffのような関連プロジェクトは、Stable Diffusionのチェックポイントに追加のモーションモジュールを使って短いアニメーションクリップを生成します。Stable Video Diffusionのような専用の動画生成モデルは、このアプローチを動画へと拡張します。