文生视频(Text-to-Video)
文生视频(Text-to-Video)是什么?
文生视频 AI 由一段书面描述生成一小段视频片段:你描述一个场景、主体与动作,AI 便创作出与你的提示相符的活动影像。
一图看懂
- 别称
- T2VAI 视频生成提示生成视频
- 主要用途
- 由书面描述生成短视频片段电影与商业制作的快速视觉原型与预演化无需摄影机、演员或实体布景即可创作视频内容在投入制作之前探索镜头运动与场景构图
- 常用工具
- Runway gen-3 alphaKlingHailuoSora (OpenAI)Veo (google)Morphic
- 相关术语
- Text-to-imageImage-to-videoDiffusion modelPrompt engineeringCamera movementVideo-to-video
- How it works in simple terms
- AI 把你的书面提示转换为一种数学表示,再生成一系列帧,使其遵循描述所隐含的时间逻辑与视觉逻辑。与只产出单帧的图像生成不同,视频生成必须产出许多能流畅汇成运动的帧。
- Where you encounter this
- 文生视频是 Runway、Kling、Hailuo 与 Morphic 等 AI 视频平台的核心能力,也越来越多地被集成进专业媒体制作工作流,用于预演化、内容创作与商业制作。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
文生视频与图生视频的主要区别在于视觉规格来自何处。文生视频从语言中推导出全部视觉信息:模型必须解析提示,并凭借其训练同时生成视觉外观与运动。图生视频则把一张静态图像作为视觉锚点,并由它生成运动,从而为模型提供关于起始帧的具体视觉信息,而非要求它纯粹从语言中合成。对于特定的主体与构图,图生视频通常产出视觉上更一致的结果;文生视频则提供更多生成自由,更适合没有特定起始画面要求的场景。
可以这样理解…
文生视频就像只用文字来导演一部影片:你把场景、动作、镜头运动与视觉风格描述给一位摄影指导,他无需场地、演员或器材就立刻产出素材。素材的质量,完全取决于这套指令传达得有多精确、多具象。
实用提示
在文生视频提示中,务必显式描述运动:既包括主体运动,也包括镜头运动。只描述静态场景的提示,会产出由模型自行推断的、普通或微弱的运动。明确写出主体正在主动做什么(“缓缓走向镜头”“转身向左看”“伸手去拿桌上的物件”),如果想要镜头运动,再加上明确的运镜方向(“缓慢推进”“绕主体做大弧度环绕”“锁定机位”)。仅这两处补充,就能显著提升生成片段的意图性与可用性。
类型与变体
基于扩散的文生视频模型把图像扩散路线延展到时间维度,通过对一系列潜帧进行由文本提示引导的去噪来生成视频。基于 Transformer 的视频生成模型借助注意力机制把视频当作统一的时间序列来处理,使每一帧都能直接与其他每一帧建立关联。图生视频把一张静态图像与一段文字提示作为联合条件输入。镜头条件化生成允许把特定的镜头运动类型作为结构化输入,与文字提示并列指定。风格条件化生成则纳入参考图或风格参数,在文字提示本身所能指定的范围之外,进一步引导生成视频的视觉处理。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
文生视频被用于电影与商业制作中的快速视觉原型与预演化;规模化创作社交媒体与营销视频内容;生成 b-roll 与图库视频素材;制作动画讲解片与教育内容;为提案与客户演示开发视觉概念;以及在投入制作资源之前探索叙事与风格的可能性。随着模型质量提升,它也越来越多地被用于成片制作流程中的特定镜头类型与环境。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。