图生视频(Image-to-Video)

图生视频(Image-to-Video)是什么?

图生视频以一张照片或 AI 生成的图像为起点,用 AI 让它动起来:生成一段从你的图像开始的短视频,在保留原图视觉外观的同时,加入自然的运动、镜头移动或其他动画效果。

一图看懂

别称
Img2vid图像动画化静图转视频
主要用途
让已达成理想视觉品质的 AI 生成图像动起来用自然运动让照片或插画活起来用一个特定的视觉起始帧控制视频生成的开头把静态概念图扩展为运动内容
常用工具
Runway gen-3 alphaKlingHailuoStable video diffusionPikaLuma AI
相关术语
Text-to-videoVideo-to-videoImage-to-imageMotion promptTemporal coherence

准备好开始创作了吗?

执导场景、设计角色、完成整部影片

一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。

对比与差异

对比与差异

Compared with related concepts

图生视频与文生视频:文生视频完全依据一段文字描述生成片段,没有视觉起点,提供最大的创作自由度,但对结果具体视觉外观的控制较弱。图生视频以一张提供的静态帧作为视觉起点,对初始外观以及与既定视觉效果的一致性有更强的控制,但对片段开头画面的灵活性较低。对于必须把特定视觉品质带入视频的工作流而言,图生视频通常比仅靠文本提示词重现这些品质更可靠。


可以这样理解…

可以把图生视频想象成把一张照片交给动画师,请他让画面活起来。照片精确定义了这个世界的样子(光线、角色、环境,每一处细节),而动画师的工作是加入尊重并延续既有画面的运动。AI 无需想象场景的样子,因为你已经把它展示出来了;它只需要弄清楚画面如何运动。


实用提示

要获得最自然流畅的图生视频结果,请提供本身就包含运动暗示视觉线索的源图像:正迈步而非完全静立的人物、被风吹动的头发、暗示流动的水面,或具有清晰空间纵深、便于镜头探索的构图。完全静止、毫无能量暗示的图像往往只能产生极少或不自然的运动,而暗示某个时间瞬间的图像则为模型提供了可自然延展的物理与时间语境。

类型与变体

不同的图生视频实现方式在如何让创作者指定所需运动方面有所差异。一些系统在源图像之外结合文本提示词来描述预期的运动,例如"角色缓缓转头""镜头后拉,展现周围的景观";另一些则完全依赖模型对图像视觉内容中可能运动的推断。某些平台中的运动笔刷工具允许创作者在源图像的特定区域涂抹出运动方向,从而对运动产生的位置与方式进行空间上的控制。部分高级模型提供尾帧条件控制,允许同时指定起始帧和结束帧,由模型生成两者之间的过渡。一些平台还专门为图生视频提供镜头控制模式,可以独立于主体运动来指定镜头移动的类型(横摇、俯仰、推轨、环绕)。

准备好在 Morphic 里做第一个场景了吗?

试用 Morphic

常见使用场景

AI 视频创作者用图生视频把精心生成的 AI 图像转换为视频内容,保留图像生成阶段所达成的视觉品质。摄影师让自己的照片动起来:为人像加入自然的动作、为风景图加入环境运动,或为建筑照片加入细微的动画,从自己的照片库中创作出社交媒体视频内容。概念艺术家把角色设计和场景插画转化为运动内容,用于演示和提案。电影人用图生视频在投入完整视频生成或实拍制作之前,先对镜头运动和场景表现进行原型测试。

准备好开始创作了吗?

执导场景、设计角色、完成整部影片

一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。

常见问题(FAQ)

什么是图生视频生成?

图生视频是一种 AI 生成工作流,以一张静态图像作为视频片段的起始帧,由模型生成合理的运动和视觉延续,将静态来源扩展为动态序列。它让创作者可以为某张特定图像制作动画,而不必用文字从零开始描述一段视频。

图生视频在技术上是如何运作的?

大多数图生视频系统将源图像编码为潜在表示,并以此对生成后续帧的时序生成过程进行条件化。模型借助其学到的场景和主体运动方式,生成与起始图像视觉内容一致的运动;在某些系统中,文本提示词还能就所需运动的类型或方向提供额外引导。

图生视频能生成哪些类型的运动?

图生视频模型可以生成主体运动,如行走、做手势或面部动画;环境运动,如流水、摇曳的草木或人群移动;以及镜头运动,如缓慢横摇、推近或围绕主体的环绕移动。运动类型的范围和质量因模型而异,文本提示词的引导可以指引强调哪种运动。

哪些 AI 平台支持图生视频生成?

许多领先的 AI 视频平台都支持图生视频,包括 Runway Gen-3、Kling、Hailuo、Pika、Luma AI 和 Stable Video Diffusion。各平台在运动控制选项、支持的图像格式、输出分辨率和片段时长方面的实现方式各不相同。

图生视频片段有多长?

片段时长因平台而异,当前大多数系统从单张图像生成约 4 到 10 秒的片段。一些平台支持通过顺序生成来延长初始片段,从而由单张起始图像构建出更长的序列。随着模型能力的发展,片段的最大长度仍在不断增加。

什么样的起始图像适合做图生视频?

暗示某个时间瞬间的图像,即带有隐含运动、环境动态感或能引导镜头探索的空间纵深的图像,往往比完全静止、对称的构图产生更自然流畅的运动。光照良好、主体清晰、视觉纵深分明的图像,能在生成延续起始帧的运动时为模型提供更多信息。

图生视频和文生视频有什么区别?

文生视频完全依据一段文字描述生成片段,没有视觉起点,提供最大的创作自由度,但对具体视觉外观的控制较弱。图生视频以一张提供的静态图像作为确定的视觉起点,对片段初始外观有更强的控制,并确保图像生成中达成的特定视觉品质能延续到视频输出中。

我能控制图生视频中的镜头运动吗?

图生视频中的镜头运动控制因平台而异。一些工具允许在源图像之外用文本提示词描述镜头运动。一些提供专门的镜头控制模式,可指定推轨、横摇或环绕等运动类型。某些平台中的运动笔刷工具允许在特定图像区域涂抹出运动方向。随着平台开发出更精确的生成能力,可用的镜头控制程度仍在持续扩展。

Can't find what you are looking for?
Contact us and let us know.
bg