Question 1

AI 中的训练数据是什么,为什么它重要?

Accepted Answer

训练数据是 AI 模型在其开发过程中所学习的既有内容集合(图像、文本、视频、音频)。对生成式 AI 而言,训练数据是模型一切认知的来源:主体长什么样、风格如何被刻画、语言如何映射到视觉内容。训练数据的构成直接决定了一个模型能自信生成什么、在什么上力不从心,以及其输出中会出现哪些偏见或表征空白。理解训练数据,是理解 AI 模型为何会以特定方式表现的根本。

Question 2

训练数据如何影响 AI 能生成什么?

Accepted Answer

模型通过识别并复现训练数据中的统计模式来学会生成内容。在训练集中频繁出现、且样本多样的内容类型,会比那些罕见或缺失的类型以更高的质量与一致性被生成。一个主要在专业摄影上训练的模型,会比在低质量素材上训练的模型产出更干净、构图更佳的图像。一个训练数据在某些美学传统、人群或主体上较为稀少的模型,会在这些领域产出不一致或不准确的结果,映现出其视觉教育的局限。

Question 3

围绕 AI 生成训练数据有哪些伦理问题?

Accepted Answer

围绕 AI 训练数据的主要伦理关切涉及知情同意、署名与表征。大多数大型生成模型都是在海量公开可访问的互联网内容上训练的,其中通常包含艺术家与摄影师的创作,而他们并未明确同意自己的作品被用于模型训练。这引出了关于知识产权与创作者权利的悬而未决的问题。表征性偏见是另一重关切:主要取自英语互联网来源的训练数据,往往会过度代表某些人群、美学传统与文化语境,把这些偏见嵌入模型的默认输出之中。

Question 4

微调数据是什么,它与训练数据有何不同?

Accepted Answer

训练数据是用于从零训练模型的庞大数据集,在广泛范围内奠定其基础的视觉与语言知识。微调数据是一个小得多、经过高度策展的数据集,用于把一个已训练好的模型适配到某一具体风格、主体或领域,而无需从零重训。训练数据可能由数十亿个图像，文本对组成,而用于某一特定风格适配的微调数据,可能只由数百或数千个精心挑选的样本组成。微调在有针对性的领域调整模型的行为,同时保留它基于原始训练数据所建立的更广泛能力。

Question 5

为什么 AI 模型有时会对某些主体产出不一致或不准确的结果?

Accepted Answer

对特定主体的生成不一致或不准确,几乎总是反映出这些主体在模型训练数据中代表性不足或被错误呈现。如果训练集中包含某种特定视觉风格、文化语境、主体类型或人群的样本很少,模型对它学到的表征就会更不精确、更不一致。这表现为生成中错失关键特征、把目标与更常见的视觉概念混为一谈,或产出技术上正确但在文化上泛泛的结果。用相关样本进行微调,可以针对具体的制作需求弥补这些空白。

Question 6

理解训练数据如何帮助我更好地使用 AI 生成工具?

Accepted Answer

理解训练数据有助于你为任务选择恰当的工具、设定切合实际的预期,并富有成效地诊断生成问题。在为一个有特定美学要求的项目在多个模型之间做选择时,那些训练数据对相关风格或内容类型有充分覆盖的模型会表现得更可靠。当一个模型始终在某个特定主体上失败时,把它识别为训练数据的空白而非提示错误,会告诉你应当切换工具、调整方法去描述视觉特质而不是点名某个概念,或投入微调。这一诊断框架可以避免在那些其实是模型选择问题的提示问题上做无谓的反复迭代。

Question 7

哪些类型的内容往往在 AI 生成训练数据中得到充分代表?

Accepted Answer

在互联网来源数据上训练的生成式 AI 模型,往往对那些在英语互联网上大量存在的内容代表充分:当代西方摄影美学、主流商业视觉风格、常被拍摄的主体(如风景与某些人群的肖像)、拥有大量在线追随者的知名艺术风格,以及建筑、产品摄影等技术性视觉语境。往往代表不足的内容包括:非西方视觉传统、在英语在线档案中代表性不足的地区与文化美学、数字化样本有限的历史视觉风格,以及在主流在线视觉文化中较少出现的人群。

Question 8

我能把自己的训练数据加进 AI 模型里吗?

Accepted Answer

不能直接加进基础模型:基础模型由开发它们的公司在大型数据集上训练,通常不向终端用户开放重训。不过,大多数领先的 AI 生成平台都提供微调能力,允许创作者用自己的样本去适配一个预训练基础模型。通过提供一组代表某个特定角色、风格或主体的策展图像,创作者可以更新模型的权重,使其更可靠地生成该内容。像 Morphic 这样的平台通过 Assets 标签页支持自定义模型训练,训练好的模型即可在项目工作流中用于生成。

训练数据(Training Data)

训练数据(Training Data)是什么？

执导场景、设计角色、完成整部影片

类型与变体

准备好在 Morphic 里做第一个场景了吗？

常见使用场景

执导场景、设计角色、完成整部影片

常见问题（FAQ）