音频生成
音频生成是什么?
音频生成是指 AI 从文本描述或其他输入创作声音(无论是音乐、说话的嗓音还是音效),无需人类音乐家、配音演员或录音棚。
一图看懂
- 别称
- AI 音频合成生成式音频AI 声音生成
- 主要用途
- 音乐制作语音合成音效创作环境声景生成快速音频原型制作
- 常用工具
- SunoUdioElevenLabsAudioCraftStable audioAudiobox
- 相关术语
- Text-to-speechSound designSound effectsMusic generationVoice cloning
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
音频生成与音频编辑对比:音频生成使用 AI 模型从零创作全新的音频内容,起点是文本提示或其他输入。音频编辑则是用 DAW 等工具对现有的录制或生成音频进行处理,如调整电平、剪切、施加效果或合并多个音源。许多现代工作流程把两者结合:用 AI 生成基础音轨,再加以编辑和打磨。
可以这样理解…
音频生成就像让作曲家、配音演员和录音师全天 24 小时随叫随到。你无需预订录音棚档期、苦等数周,只要用平实的语言描述你需要什么,几秒内就能拿到草稿,然后你可以加以打磨,或交给人类专家做最后润色。
实用提示
在视频项目中用音频生成来做音乐时,在简报阶段生成多个变体,把它们当作人类作曲家或剪辑师的参考曲目。即使最终替换掉这些 AI 音频,生成的版本也以书面简报罕能做到的方式确立了节拍、情绪和配器。
类型与变体
音乐生成模型从文本提示或风格参考产出旋律、和声及节奏的作品。文本转语音(TTS)系统把书面文字转换为自然的口语嗓音。语音克隆模型从一小段音频样本复刻特定人物的嗓音特征。音效生成产出离散、非音乐性的音频事件,如脚步声、撞击声或环境声。环境音和拟音生成模型为视频和游戏制作创造连续的背景音频或逼真的真实世界声音。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
音频生成广泛用于电影、广告、游戏和社交媒体制作。在 AI 电影制作工作流程中,它用于为动态分镜和粗剪生成临时音乐床,在等待最终演员录音期间产出占位配音,在没有专门录音环节的情况下创造音效,并在投入定制配乐之前为项目的整体声音感觉做原型。独立创作者用它以低成本产出完整的音轨,而工作室在制作早期阶段把它当作快速构思工具。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。