Image-to-Image(画像から画像)

Image-to-Image(画像から画像)とは?

画像から画像は、すでに持っている写真やイラストレーションを取り込み、元の画像の基本的な構図と構造を保ちつつ、何か新しいもの(スタイル、ムード、内容を変える)へと変換します。

ひと目で分かる

別名
Img2img画像ガイド付き生成スタイル転送(一部の文脈で)
用途
既存の画像や写真に芸術的なスタイルを適用するAI生成出力を精緻化し反復する大まかなスケッチを完成したイラストレーションに適応させる構図を保ちつつ的を絞った美的変更を行う
主なツール
Stable diffusion (AUTOMATIC1111, ComfyUI)Midjourney (image prompting)Adobe fireflyRunwayCanva AI

創ってみませんか?

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。

他の概念との比較

他の概念との比較

Compared with related concepts

画像から画像対インペインティング:画像から画像は、ソースの構造に導かれて、画像全体またはその大部分に変換を適用します。インペインティングは、特定にマスクされた領域だけに生成を適用し、マスクされていない領域を完全に変更しないままにします。それ以外は受け入れられる画像の小さな領域への的を絞った修正には、インペインティングがより適しています。構図全体に適用される全面的なスタイル変換には、画像から画像が正しいアプローチです。


たとえば…

画像から画像は、写真を塗り絵の輪郭として使うようなものだと考えてください。写真家が写真を撮って構図を決め、今あなたはAIに、まったく異なるスタイルでそれを塗るよう、まるで同じシーンが異なる時代の異なるアーティストによって捉えられたかのように頼んでいます。構図はおおよそ同じままですが、視覚的処理に関するすべて(色、質感、スタイル、ムード)を、モデルによって完全に変換できます。


プロのヒント

ノイズ除去強度パラメーターは、画像から画像のワークフローで最も重要な単一のコントロールであり、新しいプロジェクトごとに注意深く試す価値があります。ソースの構図を保つべきスタイル的な変換では、0.4~0.6の範囲の値が、オリジナルの構造を保つことと、説得力のある変換を生み出すのに十分なクリエイティブな余地をモデルに与えることの間で、最良のバランスを生み出すことが多いです。非常に高い値(0.8超)はテキストのみの生成に近く、緩やかな構造的参照だけが望まれるときに使うべきです。

種類とバリエーション

画像から画像への生成は、ソース画像の条件付けがどう適用されるかに応じて、いくつかの操作上のバリアントが存在します。標準的なimg2imgは、単一のソース画像をテキストプロンプトとノイズ除去強度パラメーターとともに使い、変換の強度をコントロールします。スタイル転送のアプローチは、一つの画像をスタイル参照として、もう一つを内容のソースとして使い、スタイル画像の美学を内容画像の構造に適用します。ControlNetベースの画像から画像は、ソース画像から抽出された構造情報(深度マップ、エッジマップ、ポーズスケルトン)を、ピクセルレベルの初期化ではなく正確な条件付けとして使い、標準的なimg2imgよりも信頼性高く特定の構造的品質を保ちます。MidjourneyやDALL-E 3のようなモデルでの参照画像の条件付けは、直接のピクセルの影響なしに画像を緩やかなスタイルガイドとして使い、参照から構造的に派生することなく、それに着想を得た出力を生み出します。

Morphicで最初のシーンを作ってみませんか?

Morphicを試す

主な活用シーン

写真家やビジュアルアーティストは、画像から画像を使って既存の作品のスタイル的なバリエーションを探求します。構図を保ちつつ、絵画的、イラストレーション的、ジャンル固有の処理を写真に適用します。コンセプトアーティストは、デザインの方向性を素早く反復し、複数のスタイル探索にわたって大まかなスケッチを洗練されたコンセプトに精緻化するために使います。AIコンテンツのクリエイターは、構造的には良いが美的な調整が必要な以前に生成された画像を補正・改善するために使います。製品デザイナーやマーケターは、再撮影なしに既存の製品画像を異なる視覚的スタイル、環境、文脈に適応させます。

創ってみませんか?

シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる

シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。

FAQ

画像から画像へのAI生成とは何ですか?

画像から画像は、既存の画像がテキストプロンプトと並んで入力として機能し、モデルがその構図や構造の側面を保ちつつソースを変換する生成ワークフローです。視覚的な出発点なしに書かれた記述から完全に構築するテキストから画像への生成とは異なります。

画像から画像におけるノイズ除去強度とは何ですか?

ノイズ除去強度は、モデルがソース画像をどれだけ変換するかをコントロールします。低い値(0に近い)では、出力はわずかな変更でソースに酷似します。高い値(1に近い)では、ソースは大まかな構造的な示唆のみを提供し、モデルは実質的な変換を適用します。最適な値は、オリジナルの構図をどれだけ保つか、あるいは再構想するかによります。

画像から画像はテキストから画像とどう違いますか?

テキストから画像は、視覚的な出発点なしにランダムなノイズから始めて、書かれた記述から完全に画像を生成します。画像から画像は、既存の画像を部分的な初期化として使い、すでに視覚的な構造が備わった状態でノイズ除去プロセスを開始し、テキストプロンプトは、構図全体をゼロから記述するのではなく、その構造がどう変換されるかを導きます。

img2imgとは何ですか?

img2imgは画像から画像の一般的な略称で、Stable Diffusionコミュニティやツールのインターフェースで広く使われています。この用語は互換的に使われ、既存の画像をテキストプロンプトと並んで入力として使い変換を導く、同じ生成アプローチを指します。

画像から画像を使って写真のスタイルを変えられますか?

はい。構図を保ちつつ写真に芸術的なスタイルを適用することは、画像から画像への生成の最も一般的な用途の一つです。中程度のノイズ除去強度を設定し、スタイルを記述するプロンプトを含めることで、モデルは被写体、フレーミング、空間的関係を保ちつつ、写真の視覚的処理を変換できます。

ControlNetとは何で、画像から画像とどう関連しますか?

ControlNetは拡散モデルの条件付き制御システムで、ソース画像から抽出された構造情報(エッジマップ、深度マップ、ポーズスケルトンなど)を、直接のピクセル初期化ではなく正確な条件付けとして使います。画像ベースの条件付けのより高度な形で、標準的なimg2imgよりはるかに信頼性高く特定の構造的品質を保てるようにし、キャラクターのポーズ制御、建築レイアウトの一致、その他正確な構造的遵守が重要なケースで広く使われています。

画像から画像とインペインティングの違いは何ですか?

画像から画像は、ソースの視覚的構造に導かれて、画像全体またはその実質的な部分に変換を適用します。インペインティングは、マスクされた領域に特定して生成を適用し、マスクされていない領域を変更しないままにします。それ以外は受け入れられる画像の特定の小さな領域を補正・置換するには、インペインティングがより正確です。構図全体に全面的なスタイル変換を適用するには、画像から画像がより適切なアプローチです。

画像から画像はどんな入力を必要としますか?

標準的な画像から画像は、ソース画像、望ましい出力を記述するテキストプロンプト、ノイズ除去強度の値を必要とします。一部のワークフローは、望ましくない要素を除外するネガティブプロンプト、再現性のためのシード値、モデル固有のパラメーターなどの追加の条件付けを加えます。ControlNetを使うより高度なワークフローでは、ソース画像からどのタイプの構造的条件付けを抽出するかの指定も必要です。

Can't find what you are looking for?
Contact us and let us know.
bg