参数(Parameters)
参数(Parameters)是什么?
参数是 AI 模型内部的数十亿个数值,编码了模型在训练中学到的全部内容。它们定义了模型的能力,而在训练过程中调整这些参数正是模型学习的方式。用户无法直接更改它们:训练完成后,参数即被固定。
一图看懂
- 别称
- 权重(特指连接数值)模型权重学习到的参数
- 主要用途
- 编码模型从训练数据中学到的全部内容决定模型的能力、风格与行为定义已训练 AI 模型的核心组成部分
- 常用工具
- All AI models and neural networksPyTorch and TensorFlow (training and parameter management)Hugging face model hub (parameter storage and sharing)
- 相关术语
- Neural networkTrainingFine-tuningModelWeightsCFG scaleInference
- How it works in simple terms
- 在训练过程中,模型的参数被调整数百万次,以最小化误差。训练完成后,它们被固定下来。当你使用模型生成图像或文本时,你的输入会穿过模型的架构,在每一层都被这些固定的参数数值所变换,直到产出一个输出。
- Where you encounter this
- 每个 AI 生成工具都构建在具有特定参数数量的模型之上。模型描述中常会标注参数数量(例如“7B 参数”“70B 参数”)作为规模的指标。在生成界面里,CFG scale、步数等可调设置有时也被口语化地称为“参数”。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
模型参数与生成参数(也称推理参数或采样参数)经常被混为一谈,但在技术上有明确区别。模型参数是固定的、学习得来的内部数值,定义了模型能做什么:它们就是模型本身,用户无法更改。生成参数是用户可调的设置,用于控制模型的固定能力如何被应用到具体的生成请求上:它们塑造输出,但不改变底层模型。更改生成参数会改变模型的表现方式;更改模型参数(通过微调或重新训练)会改变模型能做什么。
可以这样理解…
AI 模型中的参数就像专家大脑中积累的知识:经由多年学习与经验形成,以连他们自己都无法完全清晰表述的方式,编码了他们对所在领域的全部认识。当有人提问时,这份深层的、被编码的知识塑造了他们的回答。问题本身(提示词)是即时输入;积累的知识(参数)则负责把这个输入转化为有意义的回应。
实用提示
在为某个生成任务挑选不同模型时,参数数量是有用的背景信息,但不应作为首要的选择标准。在特定任务上,训练良好的 7B 参数模型往往胜过训练欠佳的 70B 模型。请首先关注模型在你目标领域中已展现的实际输出:它在什么数据上训练、能产出什么风格与质量水平,而不是它的原始参数数量。参数数量是容量的指标,而非质量的保证。
类型与变体
权重是定义神经元之间连接强度的参数:在大多数网络中,它是数量最多的一类参数。偏置是在每个神经元处额外加入的参数,它独立于输入对激活函数进行平移,从而提供额外的灵活性。超参数是定义训练过程本身的设置(学习率、批大小、训练轮数),而非模型学习到的数值;它们在训练开始之前就被设定,而不是从数据中学习得到。生成参数(CFG scale、步数、种子、采样器)是用户可访问的设置,用于控制已训练模型如何被应用到具体的生成任务上,与模型内部学习到的参数有所区别。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
理解模型参数在以下场景中很有用:按规模比较模型时(同一系列中的 70B 参数模型与 7B 模型);评估微调模型时(它们以预训练模型的参数为起点,并针对特定领域进一步调整);考虑运行模型的算力需求时(参数数量越大,所需的内存与计算越多);解读不同模型版本之间的生成质量差异时;以及调整生成参数(CFG scale、步数等)以控制模型学习到的参数如何被应用以产出特定输出时。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
参数是定义已训练 AI 模型行为的内部数值(主要是权重与偏置)。它们编码了模型从训练数据中学到的全部内容,并决定模型如何把任意给定输入转化为输出。训练完成后,参数被固定,构成保存下来的模型。现代大型模型包含数十亿个参数。
参数是在训练过程中学习得到的数值:即网络内部的权重与偏置,它们通过训练过程被调整以最小化误差。超参数是定义训练过程本身的设置(学习率、批大小、训练步数),在训练开始之前就被设定,而不是从数据中学习得到。参数是训练的产物;超参数则塑造训练如何进行。
不一定。参数越多意味着表征容量越大:模型有潜力学到更复杂、更细致的模式,但质量同样高度依赖训练数据质量、架构设计与训练方法。一个在优质、经过精选的领域特定数据上训练的较小模型,在该领域内的特定任务上有可能胜过一个大得多的通用模型。参数数量是规模的指标,而非质量或对某个具体用例适配程度的保证。
权重是一类特定的参数,用于定义神经网络中神经元之间连接的强度:它是数量最多、也最重要的一类参数。在日常用法中,“模型权重”与“模型参数”常被互换使用,指代定义已训练模型的那一整套学习到的数值。当一个模型被下载或共享时,传输的文件中包含的正是这些权重。
生成参数(也称推理参数或采样参数)是生成界面中用户可调的设置(CFG scale、步数、种子、噪声水平、采样器),用于控制已训练模型如何被应用到具体的生成任务上。模型参数是固定的、学习得来的内部数值,定义了模型能做什么。生成参数塑造模型的能力如何被表达;模型参数则定义这些能力本身是什么。
微调以预训练模型已有的参数为起点,在一个更小、更专门的数据集上继续训练过程,进一步调整参数以提升在该特定领域或任务上的表现。其结果是一个微调后的模型,其参数同时编码了预训练阶段学到的广泛能力,以及微调阶段发展出的专门知识。由于预训练参数提供了强有力的起点,微调在算力上的开销显著低于从零开始训练。
每个参数都需要内存来存储,并在推理时需要计算来应用。一个拥有 700 亿参数的模型,以 16 位精度存储约需 140GB 内存(每个参数存储为 2 字节数值)。让一个输入穿过 70B 模型需要执行数十亿次数学运算,这就要求强大的硬件。这也是为什么超大型模型通常运行在配备专用硬件的云端基础设施上,而非消费级设备上。
在标准的消费级界面中不能。在通常的使用中,模型参数是固定且无法访问的:用户通过提示词与生成参数与模型交互,而不直接触及底层权重。能够访问模型文件并具备相应硬件的高级用户可以进行微调,即通过额外训练来调整参数。一些平台和诸如 LoRA 这样的技术提供了更易上手的参数调整方法,它们高效地修改一小部分参数。