零样本学习(Zero-Shot Learning)
零样本学习(Zero-Shot Learning)是什么?
零样本学习是模型对它从未被专门训练过的任务或内容也能处理的能力,通过把其更广泛训练中的一般知识应用到它从未直接见过的新情境上。
一图看懂
- 别称
- Zero-shot generalisationZero-shot inferenceZero-shot capability
- 主要用途
- 在没有任务特定训练示例的情况下执行新颖任务为训练数据中不存在的概念组合生成内容测试一个模型泛化能力的广度理解 AI 模型为何在不寻常提示上成功或失败
- Key features
- 在没有针对这些任务的直接训练示例下执行任务从更广泛的训练知识泛化到新颖场景与少样本学习和微调形成对比既是一项实用能力,也是衡量模型质量的指标
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
零样本学习最有用的对比对象是少样本学习与微调,它们是模型适配谱系上的不同点。零样本表现是模型在没有任何任务特定引导下能做到什么。少样本表现是模型在提示中被给予少量示例时能做到什么,对当前的大型语言与生成模型而言,这在特定任务上往往比零样本好得多。微调是模型在其权重于特定数据集上被更新之后能做到什么,代表着以训练投入为代价、对某一特定任务或领域的最大可能适配。对实际生成工作而言,大多数任务落在纯零样本与少样本区域之间的某处,,在那里,把视觉或文本参考示例与提示一同提供,能显著改善输出质量。
可以这样理解…
零样本学习类似于:请一个从未到过日本、却广泛阅读过相关资料、看过许多日本电影、并学过这门语言的人,去描述一间传统旅馆(ryokan)的室内。他们从未直接体验过这一对象,但能通过从其广泛接触所积累的大量相关知识中泛化,产出一段合理且往往准确的描述。其泛化的质量取决于其背景知识有多丰富、多互联:一个对日本文化接触既深又广的人,会比一个只对少数方面有肤浅了解的人泛化得更准确。AI 模型的运作与此相似:其训练的广度与深度决定了它对新颖请求做零样本泛化的质量。
实用提示
当一个生成模型对一个不寻常或高度具体的提示产出令人失望的结果时,问题往往在于该请求落在了模型有效零样本泛化范围之外:这一概念组合对模型而言太新颖或太具体,无法从其训练中准确插值出来。实用的应对是拆解提示:与其一次性请求整个不寻常的组合,不如把它拆成其熟悉的组成元素并分别描述。为最新颖的元素添加视觉参考图像。如果风格方向高度具体,就提供一张近似它的示例图像。你提供的每一个额外锚点,都把这一请求从纯零样本泛化推向一种更有引导的推理,而后者通常产出明显更好的结果。
类型与变体
零样本学习涵盖跨不同 AI 模态的几种不同能力。在语言与文本生成中,零样本能力使模型能够遵循它未被专门训练过的任务类型的指令、把文本归入新的类别,并回答训练数据中并不直接存在的主题的问题。在图像生成中,零样本能力使模型能为未作为训练样本直接呈现的概念组合、视觉风格与主体描述生成合理的画面。在视频生成中,零样本泛化延伸到摄影机运动、主体与氛围条件的新颖组合,通过从相关训练材料外推产出合理结果。少样本学习(few-shot learning)是与之相邻的能力:在推理时于提示中提供少量示例来引导模型行为,在不付出微调成本的前提下,实现比单纯零样本更好的任务对齐。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
零样本学习与任何“所请求的任务或内容是新颖、不寻常或高度具体”的生成式 AI 模型交互都相关。提示图像生成模型产出一种不对应于具名艺术家或流派的视觉风格,依赖零样本泛化把描述转译为一个自洽的美学输出。要求语言模型以一种不寻常的格式或意料之外的视角解释一个概念,依赖零样本任务泛化。生成高度具体、不寻常主体组合的视频,,以没有直接训练类比的方式组合起来的生物、环境、动作与风格,,依赖零样本泛化产出合理结果。理解一个请求何时落在模型的零样本能力之内、何时需要更多引导或拆解,是有效 AI 制作的一项实用技能。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
零样本学习是模型在推理时不被提供任何任务特定示例、完全依赖从训练中泛化来执行任务或生成内容的能力。少样本学习在推理时把少量示例(通常在一到五个之间)与请求一同提供,向模型展示期望输出的样子,使它能把回应与所提供示例进行模式匹配,而不是从零泛化。对于那些具有特定格式或风格、仅凭训练难以泛化到的任务,少样本表现通常优于零样本。
零样本学习是让 AI 生成模型灵活、适用面广的底层能力:正是它让一个生成模型能对它从未被直接训练去产出的概念与组合做出有意义的回应。零样本表现的质量决定了一个模型能在仍产出有用结果的前提下,被推到离熟悉领域多远。当零样本泛化失效时,,对高度新颖、自相矛盾或描述不足的提示,,输出质量会退化为通用或不流畅的结果,反映出模型是在其训练分布上做平均,而非成功外推到所请求的新颖之处。
可以:提示的具体性与上下文锚点的提供,显著影响模型对新颖请求泛化的好坏。把不寻常的概念组合拆解为其熟悉的组成元素、为最新颖的方面提供视觉或文本参考示例,并以模型训练很可能接触过的术语明确描述期望输出的性格,这些都能改善处在模型零样本能力边缘的任务的结果。目标是提供足够多的熟悉参照点,使模型能朝新颖目标插值,而不是在引导太少的情况下盲目外推。
零样本失败发生在所请求的概念、风格或任务组合落在模型训练有效泛化范围之外时:当训练数据中没有足够相关的模式,让模型准确外推到所请求的新颖之处时。这可能因为该概念在训练数据中确实罕见,因为该概念组合制造了模型无法化解的矛盾信号,或因为该任务需要模型架构所不支持的某种新颖推理。当零样本失败时,典型结果是输出通用、混乱,或退回到请求表层术语最常见的关联,而非具体意图的含义。
提示工程可被理解为在零样本与少样本能力的约束内、最大化有用模型表现的实用学科。提示工程师与模型的泛化能力打交道:试图以模型能成功泛化的术语来构造请求,在单纯零样本不足时提供示例,并构造提示以减少歧义、把模型的推理引向所意图的输出。在理论上理解零样本学习,通过解释为何某些提示策略奏效、另一些失败,支撑着更好的提示工程实践。
零样本能力随模型规模与训练数据多样性强烈地扩展:在更多样数据上训练的更大模型,通常表现出更好的零样本泛化。更小或更专门化的模型,在其特定训练领域之外往往零样本表现不佳,需要任务特定示例或微调才能在新颖输入上表现良好。超大型预训练模型的发展,,GPT 规模的语言模型、用于图像生成的大型扩散模型,,把零样本能力带到了更小模型无法企及的实用水平,这也是大型基础模型已成为生成式 AI 应用中主导路径的原因之一。
在 AI 视频生成中,零样本能力决定了模型能多好地解读那些未作为带标签训练样本直接呈现的主体、风格、摄影机运动与氛围条件的提示描述。一个具有强零样本视频生成能力的模型,能为不寻常的概念组合、以技术术语描述的特定摄影机技法,或通过描述性语言(而非具名视觉参考)指定的氛围质感,产出合理的素材。当零样本视频生成能力被超出时,模型倾向于退回到通用的摄影机运动、被平均化的视觉风格,以及近似常见训练样本而非具体所请求输出的主体再现。
最优做法取决于所请求输出有多新颖或具体。对于在模型训练数据中得到充分呈现的概念与风格,,具名的视觉风格、确立的电影摄影技法、清晰描述的主体,,零样本生成通常产出良好结果,参考图像带来的改善有限。对于挤压模型训练分布边界的高度具体、不寻常或新颖的概念,参考图像是宝贵的锚点,把模型的推理引向所意图的目标,而非引向一个通用的平均。在实践中,为一次生成中最具体、最新颖的元素提供参考图像,同时对更熟悉的元素依赖零样本能力,是最高效的做法。