训练数据(Training Data)
训练数据(Training Data)是什么?
训练数据是 AI 模型学习时所接触的全部图像、视频与文本:它是模型一切“认知”的来源,,包括事物长什么样,以及语言如何与视觉关联。
一图看懂
- 别称
- Training datasetTraining corpusTraining setPre-training data
- 主要用途
- 教会 AI 模型把视觉内容与语言描述关联起来确立一个模型能够生成的风格、主体与视觉概念的范围诊断模型为何在某些内容类型上表现良好而在另一些上表现欠佳通过识别基础模型训练覆盖中的空白,为微调决策提供依据
- Key features
- 直接决定一个模型知道什么、能生成什么,以及带有哪些偏见图像,文本对为生成式模型教会语言到视觉的关联数据集的质量、多样性与覆盖面决定生成的质量与范围训练数据中主体的代表性不足会导致生成不一致
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
训练数据不同于微调数据、推理输入与模型参数,尽管它们都与模型的工作方式相关。训练数据是用于从零训练模型的庞大数据集:数十亿个样本,奠定其基础知识。微调数据是一个小得多、更有针对性的数据集,用于把已训练好的模型适配到具体任务或风格。推理输入是生成时提交给模型的提示与参考:也就是你使用模型时所提供的内容。模型参数是神经网络内部学到的数值权重,编码了从训练数据中得来的全部知识。训练数据塑造参数;参数决定推理输入如何被解读;微调数据则对参数做增量调整。理解这些区别,有助于创作者针对不同类型的生成挑战使用恰当的工具(提示、微调还是模型选择)。
可以这样理解…
训练数据之于 AI 模型,就如同一位人类艺术家曾经接触过的每一本书、每一部电影、每一张照片与每一件艺术作品之于其创作敏感度。一位在特定文化传统、视觉语言与美学历史中成长的艺术家,会在其所有作品中映现出这些影响:他们的眼睛是被接触所训练出来的。让他们在该传统之外创作,他们可以尝试,但视觉经验上的空白会在不一致与不那么自信的美学处理中显露出来。一个 AI 模型的训练数据,就是它完整的视觉与语言教育:它所见过并与语言关联起来的一切的总和,而它所产出的一切,都是从中生成的。
实用提示
当一个模型反复无法令人信服地产出某种类型的内容时(一种不寻常的美学、一个看起来视觉上不一致的人群、一种被模型以泛泛而不准确的视觉语言呈现的文化语境),不妨试着用具体、明确的词语去描述你想要的视觉特质,而不要依赖一个模型可能并未与精确视觉概念关联起来的标签。与其用一个点名某种特定美学传统的提示,不如描述它的视觉特征:色温、光线质感、构图惯例、材质纹理。这会把你的意图翻译成模型可以与其训练数据匹配的视觉语言,绕开标签与视觉概念之间那条可能很弱的关联。
类型与变体
AI 生成模型的训练数据,会根据所训练的模态与任务呈现多种形式。图像,文本对是文生图模型的核心数据集类型:数百万乃至数十亿张图像配以文本描述、标题或元数据,以教会语言与视觉内容之间的关联。对视频生成模型而言,训练数据进一步延伸到配有描述的视频片段,除静态视觉内容外,还捕捉时间上的运动模式与场景动态。合成训练数据(由其他 AI 系统生成或从 3D 资产渲染得到的图像与视频)越来越多地被用于补充自然采集的数据,尤其用于覆盖那些在自然数据中罕见的主体类型、视觉条件或安全相关场景。微调数据则是一个更小的、经过策展的数据集,用于把一个预训练基础模型适配到某一具体风格、主体或领域,而无需从零重训:用量小得多的高度相关样本,以有针对性的方式更新模型的行为。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
训练数据方面的考量,在为具体项目选择模型以及诊断意外的生成行为时最具实际意义。为一个有特定美学要求的项目(某种视觉风格、主体类型或表征需求)在多个 AI 视频生成模型之间做选择时,理解每个模型的训练数据特征会很有帮助,,这些特征通常与该模型公认能产出强结果的内容类型相关。当一个模型始终无法令人信服地生成某种风格、人群或语境时,训练数据中的代表性不足往往是最可能的原因:这是一项有用的诊断,有助于判断该继续提示、切换模型,还是用相关样本投入微调。理解训练数据,也是评估使用 AI 生成工具在伦理上的影响(尤其围绕知情同意、署名与表征)所必需的背景。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。