音频生成
音频生成是什么?
音频生成是指 AI 从文本描述或其他输入创作声音(无论是音乐、说话的嗓音还是音效),无需人类音乐家、配音演员或录音棚。
一图看懂
- 别称
- AI 音频合成生成式音频AI 声音生成
- 主要用途
- 音乐制作语音合成音效创作环境声景生成快速音频原型制作
- 常用工具
- SunoUdioElevenLabsAudioCraftStable audioAudiobox
- 相关术语
- Text-to-speechSound designSound effectsMusic generationVoice cloning
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
音频生成与音频编辑对比:音频生成使用 AI 模型从零创作全新的音频内容,起点是文本提示或其他输入。音频编辑则是用 DAW 等工具对现有的录制或生成音频进行处理,如调整电平、剪切、施加效果或合并多个音源。许多现代工作流程把两者结合:用 AI 生成基础音轨,再加以编辑和打磨。
可以这样理解…
音频生成就像让作曲家、配音演员和录音师全天 24 小时随叫随到。你无需预订录音棚档期、苦等数周,只要用平实的语言描述你需要什么,几秒内就能拿到草稿,然后你可以加以打磨,或交给人类专家做最后润色。
实用提示
在视频项目中用音频生成来做音乐时,在简报阶段生成多个变体,把它们当作人类作曲家或剪辑师的参考曲目。即使最终替换掉这些 AI 音频,生成的版本也以书面简报罕能做到的方式确立了节拍、情绪和配器。
类型与变体
音乐生成模型从文本提示或风格参考产出旋律、和声及节奏的作品。文本转语音(TTS)系统把书面文字转换为自然的口语嗓音。语音克隆模型从一小段音频样本复刻特定人物的嗓音特征。音效生成产出离散、非音乐性的音频事件,如脚步声、撞击声或环境声。环境音和拟音生成模型为视频和游戏制作创造连续的背景音频或逼真的真实世界声音。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
音频生成广泛用于电影、广告、游戏和社交媒体制作。在 AI 电影制作工作流程中,它用于为动态分镜和粗剪生成临时音乐床,在等待最终演员录音期间产出占位配音,在没有专门录音环节的情况下创造音效,并在投入定制配乐之前为项目的整体声音感觉做原型。独立创作者用它以低成本产出完整的音轨,而工作室在制作早期阶段把它当作快速构思工具。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
当前的 AI 模型能生成音乐(完整曲目或分轨)、语音和配音、音效、环境声景以及拟音风格的音频。每种类型通常需要专门的模型或系统。
对于背景和功能性音乐,AI 生成能非常快速地产出令人信服的高质量结果。对于细腻、情感复杂或高度原创的创作,人类作曲家仍能提供 AI 无法完全复刻的能力,不过这一差距正在迅速缩小。
这取决于平台的服务条款以及你所在司法管辖区的相关法律框架。许多音频生成平台提供商业许可,但在把生成音频用于付费项目之前,你应当查阅具体条款。
文本转语音是音频生成的一个特定子集,专注于把书面文字转换为口语嗓音。音频生成是一个更宽泛的术语,还包括音乐、音效和环境音的创作。
大多数现代音频生成模型是在大型音频录音数据集上训练的。它们学习音频中的统计图案,比如各频率之间如何关联、声音如何随时间演变,并运用这些知识产出与给定提示或风格相符的新音频。
有些模型支持以视频为条件的音频生成,由视觉内容引导产出。更常见的是,从业者单独生成音频,再在后期制作中加以同步,不过这一领域正朝着更紧密的视听整合发展。
在许多情况下,高质量的 AI 生成语音和音乐让未受训练的听众难以与录音区分。然而,仔细聆听往往能发现细微的伪影、不自然的措辞,或略显同质化的音色,将其与完全定制的人类制作区分开来。