推論
Inference(推論)は、学習済みのAIモデルを使って新しい入力から出力を生成するプロセスで、モデルがデータからパターンを学習する学習段階とは区別される。推論時、モデルは学習した知識を適用し、ユーザーが提供するプロンプトや条件付け入力に基づいて画像・映像・その他のコンテンツを生成する。
推論は計算集約的で、高解像度の画像や映像を生成する大規模モデルでは特に、相当なGPU処理能力とメモリが必要である。推論の速度は生成の完了をユーザーが待つ時間を決め、推論性能の最適化はリアルタイムや大量処理用途でAI生成を実用化する主要な焦点である。モデルの蒸留、量子化、専用推論エンジンなどの技法で計算要件を減らし生成時間を短縮する。
推論を学習と区別して理解することで、なぜ一部のモデルが他より速いか、なぜ特定の変更が生成速度に影響するか、計算リソースが実務のワークフローにどう影響するかをクリエイターが把握できる。Morphicのように複数モデルを提供するプラットフォームでは、推論コストと速度がクレジットの配分や用途に応じたモデル選択の要因となる。