数据集
数据集是什么?
数据集是 AI 在训练期间从中学习的示例集合。数据集的质量、多样性和内容直接决定模型知道什么以及它能生成什么。
一图看懂
- 别称
- 训练数据集训练数据训练集
- 主要用途
- 从零训练 AI 模型在特定风格或主题上微调模型评估模型性能理解模型偏见与能力的来源
- 常用工具
- Data annotation platformsWeb scraping pipelinesStock image librariesSynthetic data generation tools
- 相关术语
- AI model trainingFine-tuningLoRADreamBoothOverfitting
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
数据集与模型对比:数据集是用于训练模型的示例集合;模型是从训练过程中涌现出的习得系统。数据集定义模型从什么中学习;模型是将该学习应用于新输入的东西。对数据集的改动会产出一个不同的模型,即便训练架构保持不变,而用不同架构训练同一数据集也会产出不同的结果。两者都是 AI 开发过程中必不可少且相互依存的组成部分。
实用提示
在为自定义角色或风格模型精选微调数据集时,要把质量和变化置于数量之上。十到三十张从不同角度、在不同光照条件下、以不同距离展现主体的高质量图像,会训练出比一百张同一角度近乎相同的图像更稳健、更灵活的模型。数据集内的多样性会带来模型所能生成内容的多样性。
类型与变体
预训练数据集是用于从零训练基础模型的大规模集合,通常包含数十亿个示例。微调数据集是一个较小的、精选的集合,用于在特定领域、风格或主题上专门化一个已训练的模型。合成数据集由人工生成的示例而非真实世界数据构成,用于以足够规模收集真实示例不切实际的场合。带标签数据集包含明确的标注,例如与图像配对的文本描述,支持监督学习。无标签数据集包含没有标注的原始示例,用于无监督和自监督学习方法。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
在多样的网络抓取图像-文本对上训练大型基础模型,使其在众多主题和风格上具备广泛的生成能力。在精选的小型数据集上微调现有模型,以创建专门的角色模型、风格一致的生成器或品牌专属的视觉工具。通过在训练期间未见的留出示例上测试来评估模型性能。通过检视训练数据的特征,理解模型为何产生某些输出、偏见或失败模式。从某个特定主体的个人图像集构建自定义的 LoRA 或 DreamBooth 模型。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
数据集是用于训练 AI 模型的示例集合。在图像和视频生成中,数据集由与文本描述配对的图像或视频构成,模型从中学习理解语言与视觉内容之间的关系。
数据集决定模型学到了什么,包括它能处理哪些主题、风格和情境,它可能反映哪些偏见,以及它的能力在何处终止。模型的输出从根本上由其训练数据的内容、多样性和质量所塑造。
用于图像生成的基础模型通常在数亿到数十亿个图像-文本对上训练。这一规模提供了处理用户在提示词中所能描述的海量主题、风格和组合所需的广度。
微调数据集是一个较小的、精选的集合,用于在特定主题、风格或领域上专门化一个已训练的模型。例如,一组十到三十张特定角色的图像可用于微调一个模型,使其持续生成该角色。
模型学习其训练数据中存在的统计模式,包括数据集中嵌入的任何文化、人口或审美偏见。如果某些主题、文化语境或视觉风格在数据中表现不足,模型处理它们时会不那么可靠。
合成数据集由人工生成的示例而非真实世界数据构成。当以所需规模收集真实示例不切实际时,或当特定类型的训练示例难以从现实世界获取时,会使用合成数据集。
精选一组在不同条件下的主体高质量图像,包括不同的角度、光照和距离。把变化和质量置于数量之上;十到三十张多样、精心挑选的图像通常比更大一组近乎相同的图像产出更好的微调模型结果。
训练数据是数据集中用于训练模型、模型从中学习其参数的部分。测试数据是训练期间未见的留出部分,用于评估模型对新示例的泛化程度。保持这两组分离,能确保评估反映真实世界的性能,而非记忆背诵。