神经网络
神经网络是什么?
神经网络是由数学连接构成的分层系统,它从数据中学习模式(如同大脑从经验中学习),并利用这些模式生成图像、文本或视频等新输出。
一图看懂
- 别称
- 人工神经网络(ANN)深度神经网络(DNN)深度学习模型
- 主要用途
- 从大规模数据集中学习模式,以实现预测与生成所有现代 AI 生成系统的基础架构图像识别、自然语言处理、语音合成、生成式 AI
- 常用工具
- TensorFlowPyTorchAll AI generation models (stable diffusion, GPT, CLIP, etc.)
- 相关术语
- Deep learningDiffusion modelTransformerGANTrainingParametersModel
- How it works in simple terms
- 数据进入网络,穿过多层相互连接的处理单元,每一层都以已学的方式对其进行变换,最终从末层产出输出。在训练过程中,这些连接被调整数百万乃至数十亿次以最小化误差。训练完成后,调整好的连接便编码了网络所学到的一切。
- Where you encounter this
- 每一款 AI 生成工具:图像生成器、视频生成器、聊天机器人、语音合成系统:都建立在一个或多个神经网络之上。当你提示 AI 生成图像或视频时,你正是在通过一个神经网络发送输入,由它将其变换为输出。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
神经网络常被与经典机器学习及基于规则的 AI 系统相对照。基于规则的系统编码由人手写的显式规则来产生输出;它们透明且可预测,但脆弱,且无法应对现实数据的复杂性与多变性。经典机器学习结合人工设计的特征与统计学习。神经网络则相反,直接从原始数据中学习自身的表征,无需特征工程,能够处理远为复杂细腻的内容,但也更难解释、更依赖数据。神经网络相较以往方法的成功,正是当前 AI 生成革命的基础。
可以这样理解…
神经网络就像一个学音乐的学生,他不是通过研习乐理来学习,而是通过聆听成千上万部作品,在接触与反馈中逐渐形成对音乐结构、模式与风格的内在感受,进而运用它创作出反映自己所吸收一切的新音乐。
实用提示
当生成模型在某种特定类型的输出上屡屡受挫:不常见的文化美学、罕见的物体、特定的摄影风格:这往往是信号,表明这些元素在模型的训练数据中代表性不足。与其就同一元素写得更长、更强硬,不如尝试将这个代表性不足的元素与模型熟知的更常见参照点相结合(“传统日本能剧舞台,空间布局类似西方镜框式剧场”),帮助网络将这个陌生请求与其已学表征联系起来。
类型与变体
卷积神经网络(CNN)专为图像与空间数据设计,利用局部化的模式检测在多个尺度上识别特征。循环神经网络(RNN)通过在各时间步间保持某种记忆来处理序列数据。Transformer 使用注意力机制同时处理输入中所有元素之间的关系,使其成为语言模型的主导架构,并越来越多地用于图像与视频生成。生成对抗网络(GAN)使用两个相互竞争的网络(生成器与判别器)彼此对抗训练,以产出逼真的输出。扩散模型使用特定的正向与反向加噪过程来生成数据。变分自编码器(VAE)学习数据的压缩潜在表征。大多数现代大规模 AI 系统会在单一整体系统中组合多种架构类型。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
神经网络是创意制作中所用每一款 AI 生成工具的底层技术:图像合成、视频生成、自然语言生成、语音合成、音乐生成、代码生成、图像识别与分类、物体检测、翻译、摘要,以及现代机器学习几乎所有其他应用。把神经网络理解为所有这些系统的共同基础,有助于创作者理解为何相似的提示词原则常常可跨不同模态与工具适用:它们都是同一基本的已学模式识别架构的变体。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
神经网络是一种由分层处理单元(神经元)通过数值权重相连而成的计算系统,旨在从数据中学习模式,并通过将这些已学模式应用于新输入来产生输出。它受生物神经网络结构的启发,是所有现代 AI 系统(包括图像生成器、语言模型与视频生成工具)背后的基础架构。
神经网络通过训练过程学习,在此过程中它接触大量带有已知正确输出的样本。训练期间,权重(神经元之间连接的数值)通过名为反向传播的过程被迭代调整,以最小化网络输出与正确输出之间的误差。在跨众多样本的多次迭代之后,这些权重便编码了已学表征,使网络得以在新输入上产生准确的输出。
深度学习特指拥有多个隐藏层的神经网络,即“深层”网络。所有深度学习模型都是神经网络,但并非所有神经网络都是深度学习模型(也存在层数很少的浅层网络)。在实践中,“深度学习”一词最常用于支撑现代 AI 生成的大型多层网络,因为正是其深度使它们能够学习高质量输出所需的复杂、层次化表征。
权重是网络中神经元之间连接的数值,在训练过程中被调整。参数是更宽泛的术语,包括权重与偏置:即网络中训练期间习得的所有数值。一个大型语言模型或图像生成模型可能拥有数十亿参数,每一个都对网络整体的已学表征有所贡献。训练完成后,参数即固定下来,并定义了模型的能力与特性。
Transformer 是一种特定类型的神经网络架构,使用注意力机制处理输入,使网络得以同时(而非逐个顺序地)考量输入中所有元素之间的关系。Transformer 是语言模型(GPT、Claude、Gemini)的主导架构,并越来越多地用于图像与视频生成。它是若干神经网络架构变体之一,以其基于注意力的处理方式而区别于其他。
传统程序遵循程序员编写的显式规则,仅限于这些规则所能处理的范围。神经网络则从数据中学习自身的规则,形成对复杂模式的内部表征,而这些模式是人类无法显式写出的。这正是神经网络能够在照片中识别人脸、理解句子含义并生成照片级真实图像的原因:这些任务所需的细腻与灵活,远非任何显式规则集所能提供。
神经网络与人工智能相关但不等同。AI 是一个宽广的领域,涵盖众多构建展现智能行为系统的方法。神经网络是 AI 架构的一类:目前是大多数实际 AI 应用的主导一类。更早的 AI 系统使用基于规则的方法、搜索算法与专家系统,而非神经网络。当前的 AI 生成革命具体而言是一场神经网络革命,但作为概念的 AI 更古老也更宽广。
参数数量是网络表征能力的粗略指标:即它潜在能学习多少复杂度。更大的网络通常具备更强的复杂模式表征能力,但也需要更多数据与算力才能有效训练。然而,规模本身并不决定质量:架构、训练数据质量、训练方法以及具体任务领域都对模型能做什么有显著影响。一个在出色的领域专属数据上训练的较小模型,在该领域内的任务上可胜过一个大得多的通用模型。