训练数据(Training Data)
训练数据(Training Data)是什么?
训练数据是 AI 模型学习时所接触的全部图像、视频与文本:它是模型一切“认知”的来源,,包括事物长什么样,以及语言如何与视觉关联。
一图看懂
- 别称
- Training datasetTraining corpusTraining setPre-training data
- 主要用途
- 教会 AI 模型把视觉内容与语言描述关联起来确立一个模型能够生成的风格、主体与视觉概念的范围诊断模型为何在某些内容类型上表现良好而在另一些上表现欠佳通过识别基础模型训练覆盖中的空白,为微调决策提供依据
- Key features
- 直接决定一个模型知道什么、能生成什么,以及带有哪些偏见图像,文本对为生成式模型教会语言到视觉的关联数据集的质量、多样性与覆盖面决定生成的质量与范围训练数据中主体的代表性不足会导致生成不一致
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
训练数据不同于微调数据、推理输入与模型参数,尽管它们都与模型的工作方式相关。训练数据是用于从零训练模型的庞大数据集:数十亿个样本,奠定其基础知识。微调数据是一个小得多、更有针对性的数据集,用于把已训练好的模型适配到具体任务或风格。推理输入是生成时提交给模型的提示与参考:也就是你使用模型时所提供的内容。模型参数是神经网络内部学到的数值权重,编码了从训练数据中得来的全部知识。训练数据塑造参数;参数决定推理输入如何被解读;微调数据则对参数做增量调整。理解这些区别,有助于创作者针对不同类型的生成挑战使用恰当的工具(提示、微调还是模型选择)。
可以这样理解…
训练数据之于 AI 模型,就如同一位人类艺术家曾经接触过的每一本书、每一部电影、每一张照片与每一件艺术作品之于其创作敏感度。一位在特定文化传统、视觉语言与美学历史中成长的艺术家,会在其所有作品中映现出这些影响:他们的眼睛是被接触所训练出来的。让他们在该传统之外创作,他们可以尝试,但视觉经验上的空白会在不一致与不那么自信的美学处理中显露出来。一个 AI 模型的训练数据,就是它完整的视觉与语言教育:它所见过并与语言关联起来的一切的总和,而它所产出的一切,都是从中生成的。
实用提示
当一个模型反复无法令人信服地产出某种类型的内容时(一种不寻常的美学、一个看起来视觉上不一致的人群、一种被模型以泛泛而不准确的视觉语言呈现的文化语境),不妨试着用具体、明确的词语去描述你想要的视觉特质,而不要依赖一个模型可能并未与精确视觉概念关联起来的标签。与其用一个点名某种特定美学传统的提示,不如描述它的视觉特征:色温、光线质感、构图惯例、材质纹理。这会把你的意图翻译成模型可以与其训练数据匹配的视觉语言,绕开标签与视觉概念之间那条可能很弱的关联。
类型与变体
AI 生成模型的训练数据,会根据所训练的模态与任务呈现多种形式。图像,文本对是文生图模型的核心数据集类型:数百万乃至数十亿张图像配以文本描述、标题或元数据,以教会语言与视觉内容之间的关联。对视频生成模型而言,训练数据进一步延伸到配有描述的视频片段,除静态视觉内容外,还捕捉时间上的运动模式与场景动态。合成训练数据(由其他 AI 系统生成或从 3D 资产渲染得到的图像与视频)越来越多地被用于补充自然采集的数据,尤其用于覆盖那些在自然数据中罕见的主体类型、视觉条件或安全相关场景。微调数据则是一个更小的、经过策展的数据集,用于把一个预训练基础模型适配到某一具体风格、主体或领域,而无需从零重训:用量小得多的高度相关样本,以有针对性的方式更新模型的行为。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
训练数据方面的考量,在为具体项目选择模型以及诊断意外的生成行为时最具实际意义。为一个有特定美学要求的项目(某种视觉风格、主体类型或表征需求)在多个 AI 视频生成模型之间做选择时,理解每个模型的训练数据特征会很有帮助,,这些特征通常与该模型公认能产出强结果的内容类型相关。当一个模型始终无法令人信服地生成某种风格、人群或语境时,训练数据中的代表性不足往往是最可能的原因:这是一项有用的诊断,有助于判断该继续提示、切换模型,还是用相关样本投入微调。理解训练数据,也是评估使用 AI 生成工具在伦理上的影响(尤其围绕知情同意、署名与表征)所必需的背景。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
训练数据是 AI 模型在其开发过程中所学习的既有内容集合(图像、文本、视频、音频)。对生成式 AI 而言,训练数据是模型一切认知的来源:主体长什么样、风格如何被刻画、语言如何映射到视觉内容。训练数据的构成直接决定了一个模型能自信生成什么、在什么上力不从心,以及其输出中会出现哪些偏见或表征空白。理解训练数据,是理解 AI 模型为何会以特定方式表现的根本。
模型通过识别并复现训练数据中的统计模式来学会生成内容。在训练集中频繁出现、且样本多样的内容类型,会比那些罕见或缺失的类型以更高的质量与一致性被生成。一个主要在专业摄影上训练的模型,会比在低质量素材上训练的模型产出更干净、构图更佳的图像。一个训练数据在某些美学传统、人群或主体上较为稀少的模型,会在这些领域产出不一致或不准确的结果,映现出其视觉教育的局限。
围绕 AI 训练数据的主要伦理关切涉及知情同意、署名与表征。大多数大型生成模型都是在海量公开可访问的互联网内容上训练的,其中通常包含艺术家与摄影师的创作,而他们并未明确同意自己的作品被用于模型训练。这引出了关于知识产权与创作者权利的悬而未决的问题。表征性偏见是另一重关切:主要取自英语互联网来源的训练数据,往往会过度代表某些人群、美学传统与文化语境,把这些偏见嵌入模型的默认输出之中。
训练数据是用于从零训练模型的庞大数据集,在广泛范围内奠定其基础的视觉与语言知识。微调数据是一个小得多、经过高度策展的数据集,用于把一个已训练好的模型适配到某一具体风格、主体或领域,而无需从零重训。训练数据可能由数十亿个图像,文本对组成,而用于某一特定风格适配的微调数据,可能只由数百或数千个精心挑选的样本组成。微调在有针对性的领域调整模型的行为,同时保留它基于原始训练数据所建立的更广泛能力。
对特定主体的生成不一致或不准确,几乎总是反映出这些主体在模型训练数据中代表性不足或被错误呈现。如果训练集中包含某种特定视觉风格、文化语境、主体类型或人群的样本很少,模型对它学到的表征就会更不精确、更不一致。这表现为生成中错失关键特征、把目标与更常见的视觉概念混为一谈,或产出技术上正确但在文化上泛泛的结果。用相关样本进行微调,可以针对具体的制作需求弥补这些空白。
理解训练数据有助于你为任务选择恰当的工具、设定切合实际的预期,并富有成效地诊断生成问题。在为一个有特定美学要求的项目在多个模型之间做选择时,那些训练数据对相关风格或内容类型有充分覆盖的模型会表现得更可靠。当一个模型始终在某个特定主体上失败时,把它识别为训练数据的空白而非提示错误,会告诉你应当切换工具、调整方法去描述视觉特质而不是点名某个概念,或投入微调。这一诊断框架可以避免在那些其实是模型选择问题的提示问题上做无谓的反复迭代。
在互联网来源数据上训练的生成式 AI 模型,往往对那些在英语互联网上大量存在的内容代表充分:当代西方摄影美学、主流商业视觉风格、常被拍摄的主体(如风景与某些人群的肖像)、拥有大量在线追随者的知名艺术风格,以及建筑、产品摄影等技术性视觉语境。往往代表不足的内容包括:非西方视觉传统、在英语在线档案中代表性不足的地区与文化美学、数字化样本有限的历史视觉风格,以及在主流在线视觉文化中较少出现的人群。
不能直接加进基础模型:基础模型由开发它们的公司在大型数据集上训练,通常不向终端用户开放重训。不过,大多数领先的 AI 生成平台都提供微调能力,允许创作者用自己的样本去适配一个预训练基础模型。通过提供一组代表某个特定角色、风格或主体的策展图像,创作者可以更新模型的权重,使其更可靠地生成该内容。像 Morphic 这样的平台通过 Assets 标签页支持自定义模型训练,训练好的模型即可在项目工作流中用于生成。