Question 1

什么是图生视频生成?

Accepted Answer

图生视频是一种 AI 生成工作流,以一张静态图像作为视频片段的起始帧,由模型生成合理的运动和视觉延续,将静态来源扩展为动态序列。它让创作者可以为某张特定图像制作动画,而不必用文字从零开始描述一段视频。

Question 2

图生视频在技术上是如何运作的?

Accepted Answer

大多数图生视频系统将源图像编码为潜在表示,并以此对生成后续帧的时序生成过程进行条件化。模型借助其学到的场景和主体运动方式,生成与起始图像视觉内容一致的运动;在某些系统中,文本提示词还能就所需运动的类型或方向提供额外引导。

Question 3

图生视频能生成哪些类型的运动?

Accepted Answer

图生视频模型可以生成主体运动,如行走、做手势或面部动画;环境运动,如流水、摇曳的草木或人群移动;以及镜头运动,如缓慢横摇、推近或围绕主体的环绕移动。运动类型的范围和质量因模型而异,文本提示词的引导可以指引强调哪种运动。

Question 4

哪些 AI 平台支持图生视频生成?

Accepted Answer

许多领先的 AI 视频平台都支持图生视频,包括 Runway Gen-3、Kling、Hailuo、Pika、Luma AI 和 Stable Video Diffusion。各平台在运动控制选项、支持的图像格式、输出分辨率和片段时长方面的实现方式各不相同。

Question 5

图生视频片段有多长?

Accepted Answer

片段时长因平台而异,当前大多数系统从单张图像生成约 4 到 10 秒的片段。一些平台支持通过顺序生成来延长初始片段,从而由单张起始图像构建出更长的序列。随着模型能力的发展,片段的最大长度仍在不断增加。

Question 6

什么样的起始图像适合做图生视频?

Accepted Answer

暗示某个时间瞬间的图像,即带有隐含运动、环境动态感或能引导镜头探索的空间纵深的图像,往往比完全静止、对称的构图产生更自然流畅的运动。光照良好、主体清晰、视觉纵深分明的图像,能在生成延续起始帧的运动时为模型提供更多信息。

Question 7

图生视频和文生视频有什么区别?

Accepted Answer

文生视频完全依据一段文字描述生成片段,没有视觉起点,提供最大的创作自由度,但对具体视觉外观的控制较弱。图生视频以一张提供的静态图像作为确定的视觉起点,对片段初始外观有更强的控制,并确保图像生成中达成的特定视觉品质能延续到视频输出中。

Question 8

我能控制图生视频中的镜头运动吗?

Accepted Answer

图生视频中的镜头运动控制因平台而异。一些工具允许在源图像之外用文本提示词描述镜头运动。一些提供专门的镜头控制模式,可指定推轨、横摇或环绕等运动类型。某些平台中的运动笔刷工具允许在特定图像区域涂抹出运动方向。随着平台开发出更精确的生成能力,可用的镜头控制程度仍在持续扩展。

图生视频(Image-to-Video)

图生视频(Image-to-Video)是什么？