推論
推論とは?
推論は「生成」をクリックしたときに起きることです。AIが訓練中に学んだすべてを適用し、あなたのプロンプトに基づいて新しい画像や動画を生み出します。
ひと目で分かる
- 別名
- モデル推論生成順伝播
- 用途
- プロンプトから画像や動画を生成するAIモデルを実行して新しい出力を生む訓練済みモデルの知識をユーザー入力に適用する
- 主なツール
- Stable diffusionMidjourneyRunwayKlingAny AI generation platform
- 関連用語
- Diffusion modelsSamplingCFG scaleLatent spaceModel distillation
- How it works in simple terms
- 訓練済みのAIモデルには、学習されたパターンとパラメータが含まれています。推論中、モデルはあなたの入力(テキストプロンプト、参照画像、その他の条件付け)を受け取り、それらの学習済みパラメータを通して単一の順伝播で実行し、訓練データのパターンとあなたが与えた具体的なガイダンスの両方を反映した出力を生みます。
- Where you encounter this
- 推論は、AIツールを使ってコンテンツを生成するたびに起きることです。プロンプトを送信してから結果を受け取るまでの待ち時間が推論時間です。AIプラットフォームの生成あたりの課金は、推論を実行する計算コストを反映しています。プラットフォームが速度オプション(ドラフト品質対高品質、または異なるモデルサイズ)を提供するとき、それは異なる推論設定を提供しているのです。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
他の概念との比較
Compared with related concepts
推論は訓練の対になる運用面です。訓練は数百万の例にわたってモデルの能力を構築する、計算量が膨大な一度きりのプロセスです。推論は、訓練済みモデルを実行して個々の出力を生む、比較的小さい計算です。一度訓練したモデルは無数の推論実行に使えるため、大企業は訓練に多額の投資をしながら、推論を生成あたり比較的低コストで提供できるのです。
プロのヒント
生成時間が遅いときやコストを下げたいときは、推論ステップや品質レベルを制御する設定を探してください。デフォルトからステップを減らすと、コンセプト探索に適したより速く忠実度の低い出力が得られます。一方、ステップと解像度を最大化すると、より多くの計算を使って最終制作用の最高品質の結果を生みます。
種類とバリエーション
推論の設定は、使うサンプリングステップの数(一般にステップが多いほど高品質だが時間がかかる)、適用するガイダンススケール(モデルがプロンプトにどれだけ近く従うか)、要求する画像解像度、基盤となるモデルアーキテクチャによって異なります。バッチ推論は複数の生成を同時に実行でき、スループットを向上させます。リアルタイム推論は品質より速度を最適化し、インタラクティブな用途向けにほぼ瞬時の生成を可能にします。
Morphicで最初のシーンを作ってみませんか?
Morphicを試す主な活用シーン
推論はすべてのAI生成ワークフローの中心にあります。プロンプトから画像を生成するとき、テキストや参照画像から動画を作るとき、スタイル転送を実行するとき、インペインティングを行うとき、画像をアップスケールするとき、あるいはAIモデルを使って新しいコンテンツを生み出すときに起きることです。推論を理解すると、クリエイターは生成コストを管理し、速度と品質のトレードオフを解釈し、異なるタスクにどのモデルや設定を使うかについて情報に基づいた選択ができます。
創ってみませんか?
シーンを演出し、キャラクターをデザインし、長編映像まで仕上げる
シンプルで透明性の高い料金体系、速度制限なし、無限のCanvasで創造性を最大化する、オールインワンのAIクリエイティブプラットフォーム。
FAQ
推論は、訓練済みのAIモデルを実行し、プロンプトや参照画像といったユーザー入力から新しい出力(画像、動画、テキスト、その他のコンテンツ)を生成するプロセスです。訓練に続く運用フェーズであり、クリエイターが生成を要求したときに実際に起きることを表します。
訓練は、大規模なデータセットにモデルを触れさせ、多くの反復にわたってパラメータを調整することでモデルの能力を構築するプロセスで、計算量が膨大な一度きりのプロセスです。推論は、すでに訓練済みのモデルを使って新しい出力を生成するプロセスで、比較的計算負荷は小さいものの、大規模モデルでは依然としてかなりのGPUリソースを必要とします。
推論時間は、モデルが実行する処理ステップの数、出力の解像度、モデル自体のサイズによって決まります。複数のデノイジングステップにわたってノイズを反復的に精緻化する拡散モデルは特に計算負荷が高く、各ステップでモデルの完全な順伝播を実行する必要があり、このプロセスを1回の生成あたり数十回から数百回繰り返さなければならないからです。
主な要因は、モデルサイズ(大きなモデルはステップあたりより多くの計算を必要とする)、デノイジングステップの数(ステップが多いほど品質は良くなるが生成時間は長くなる)、出力解像度(高解像度はより多くのメモリと計算を必要とする)、利用できるハードウェア(優れたGPUは推論時間を大幅に短縮する)です。
ほとんどのプラットフォームは推論を実行する計算コストに基づいて生成あたり課金し、これはモデル品質、出力解像度、動画の生成時間によって変わります。出力品質が高いプレミアムモデルは、推論中により多くの計算を消費するため、通常は生成あたりのコストが高くなります。
モデル蒸留は、より大きく高性能なモデルの挙動を近似する、より小さく高速なモデルを作る技術です。蒸留されたモデルは元の品質の大部分を維持しようとしながら、推論を大幅に高速かつ低コストで実行します。多くのプラットフォームは、最大限の品質よりも速度が重要なユースケース向けに、蒸留モデルのバリアントを提供しています。
はい。ほとんどのプラットフォームで、ユーザーはサンプリングステップの数、ガイダンススケール、サンプラーの選択といったパラメータを通じて推論品質を制御できます。一般にステップが多いほど、生成時間が長くなる代わりに高品質になります。一部のプラットフォームはこれらの制御を、基盤となる推論設定を自動的に調整するシンプルな品質プリセット(ドラフト、標準、高品質)に抽象化しています。
リアルタイム推論は、インタラクティブな用途に十分な速さ、場合によってはほぼ瞬時に出力を生むよう最適化された設定を指します。リアルタイム推論の実現には通常、より小さい蒸留モデルを使い、出力解像度や品質を下げることが必要で、最終制作よりもライブプレビュー、インタラクティブな体験、迅速な反復に適しています。