推理(Inference)
推理(Inference)是什么?
推理就是你点击"生成"时发生的事:AI 把它在训练中学到的一切应用起来,根据你的提示词产生一张新图像或一段新视频。
一图看懂
- 别称
- 模型推理生成前向传播
- 主要用途
- 从提示词生成图像和视频运行 AI 模型以产生新输出将训练好的模型知识应用于用户输入
- 常用工具
- Stable diffusionMidjourneyRunwayKlingAny AI generation platform
- 相关术语
- Diffusion modelsSamplingCFG scaleLatent spaceModel distillation
- How it works in simple terms
- 训练好的 AI 模型包含学到的模式和参数。在推理过程中,模型接收你的输入(一段文本提示词、一张参考图像或其他条件),在一次前向传播中让其通过这些学到的参数,产生既反映训练数据模式、又反映你所提供具体引导的输出。
- Where you encounter this
- 每当你使用 AI 工具生成内容时,发生的都是推理。从提交提示词到收到结果之间的等待时间就是推理时间。AI 平台上的单次生成计费反映了运行推理的计算成本。当平台提供速度选项,如草稿质量与高质量,或不同的模型规模时,它们提供的就是不同的推理配置。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
推理是训练在运行层面的对应过程。训练是基于数百万样本构建模型能力的一次性、计算量极大的过程;推理则是运行训练好的模型以产生单个输出的、相对较小的计算。一个模型只需训练一次,之后便可用于无数次推理运行,这正是大型公司在训练上投入巨大、却能以相对较低的单次生成成本提供推理的原因。
实用提示
当你遇到生成时间过慢或希望降低成本时,可以寻找控制推理步数或质量等级的设置。把步数从默认值调低,可以产生更快、保真度较低的输出,适合概念探索;而把步数和分辨率调到最高,则会消耗更多算力,为最终制作产出最高质量的结果。
类型与变体
推理配置因若干因素而异:所用采样步数(步数越多通常质量越高,但耗时越长)、所施加的引导尺度(模型遵循提示词的紧密程度)、所请求的图像分辨率,以及底层的模型架构。批量推理允许多个生成同时运行,提升吞吐量。实时推理以速度优先于质量进行优化,使交互式应用能够实现近乎即时的生成。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
推理是每一个 AI 生成工作流的核心。从提示词生成图像、从文本或参考图像创建视频、运行风格迁移、执行局部重绘、放大图像,或使用任何 AI 模型产生新内容时,发生的都是推理。理解推理有助于创作者管理生成成本、权衡速度与质量,并就不同任务该用哪些模型和设置做出明智选择。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
推理是运行训练好的 AI 模型,根据提示词或参考图像等用户输入生成新输出(图像、视频、文本或其他内容)的过程。它是训练之后的运行阶段,代表了创作者请求一次生成时实际发生的事情。
训练是通过让模型接触大型数据集、经过多次迭代调整其参数来构建模型能力的过程,是一次性、计算量极大的过程。推理则是使用已训练好的模型生成新输出的过程,其计算需求相对较小,但对大型模型仍需要大量的 GPU 资源。
推理时间由模型执行的处理步数、输出的分辨率,以及模型本身的规模决定。扩散模型在多个去噪步骤中反复细化噪声,计算量尤其密集,因为每一步都需要运行完整的模型前向传播,而这一过程在每次生成中必须重复数十次甚至数百次。
主要因素包括模型规模(模型越大,每步所需算力越多)、去噪步数(步数越多意味着质量越好但生成时间越长)、输出分辨率(分辨率越高需要越多内存和计算),以及可用硬件(更好的 GPU 能显著缩短推理时间)。
大多数平台按单次生成收费,依据是运行推理的计算成本,该成本随模型质量、输出分辨率以及视频的生成时长而变化。输出质量更高的高级模型通常单次生成成本更高,因为它们在推理过程中消耗更多算力。
模型蒸馏是一种创建更小、更快的模型以近似更大、更强模型行为的技术。蒸馏后的模型推理速度明显更快、成本更低,同时尽力保持原模型的大部分质量。许多平台为速度比最高质量更重要的用例提供蒸馏版模型。
可以。在大多数平台上,用户可以通过采样步数、引导尺度和采样器选择等参数来控制推理质量。步数越多通常质量越高,但代价是生成时间更长。一些平台把这些控制抽象为简单的质量预设(草稿、标准和高质量),自动调整底层的推理设置。
实时推理指为交互式应用优化、能够足够快地产生输出的配置,在某些情况下接近即时。实现实时推理通常需要使用更小的蒸馏模型并降低输出分辨率或质量,使其适合实时预览、交互式体验或快速迭代,而非最终制作。