视频生视频(Video-to-Video)
视频生视频(Video-to-Video)是什么?
视频生视频以一段既有视频片段作为 AI 生成的引导,保留原片的运动与结构,同时变换它看上去的样子。
一图看懂
- 别称
- Vid2vid视频风格迁移参考视频生成
- 主要用途
- 把视觉风格施加到既有素材上把真实素材用作 AI 生成的运动参考对先前的 AI 生成进行风格再处理从粗糙的参考视频生成一致的运动
- Key features
- 把生成条件化在输入视频的运动与结构上保留源素材的时间信息条件强度控制对源素材的遵循程度在视频输入之外支持文字与图像提示
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
视频生视频与文生视频生成放在一起对比最有意义。文生视频从一段文字描述出发,从零生成运动与视觉外观,给予创作者对叙事与概念方向的完全控制,但对精确运动的控制有限。视频生视频把运动规范转移到输入素材上,以牺牲运动设计中部分创作自由为代价,换取精确的时间控制。两种方式互补:文生视频适合初期构想与新内容的生成;视频生视频适合精修、风格再处理,以及把既有或参考素材整合进 AI 视觉处理之中。
可以这样理解…
视频生视频的工作方式像传统动画中的转描(rotoscoping):以既有的拍摄运动作为骨架,在其之上绘制新的视觉内容。底层运动借自现实或先前的作品;生成所添加的,是表层、风格,以及这一运动如今所栖身的视觉世界。正如转描动画师描摹表演者运动的弧线、再将其渲染为一个动画角色,视频生视频生成描摹源素材的时间结构、再将其渲染到一个新的视觉语域之中。
实用提示
对于视频生视频工作流,源素材作为运动引导的质量,远比它视觉上的精致程度更重要。专门为捕捉所需运动而拍摄的粗糙代用素材(哪怕是用手机、用替身充当),往往比试图在文字提示中描述复杂运动产出更好的结果。把你想要的运动拍下来,再用视频生视频把它渲染到你正在构建的视觉世界里。这种“代用素材优先”的做法,对于复杂的角色运动、特定的镜头轨迹,以及文字提示无法可靠指定的物理互动尤其有效。
类型与变体
视频生视频涵盖若干各有区别的工作流类型。全画面风格迁移把审美变换施加到整段视频上,在保留构图与运动的同时替换视觉处理。结构引导生成使用从源视频中提取的边缘图、深度图或光流作为条件信号,在不带原片完整视觉内容的情况下,把结构信息提供给生成模型。参考运动生成从源素材中提取运动数据,用来驱动完全不同的视觉主体:例如,把一名被拍摄的舞者的运动应用到一个 AI 生成的角色上。修补(inpainting)变体则只把视频生视频变换施加到画框中选定的区域,使原素材的其余部分保持完整。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
视频生视频被用于范围广泛的制作场景。广告制作用它把实拍素材变换为面向社交媒体活动的风格化视觉处理。动画制作用真实参考素材作为 AI 角色动画的运动引导。独立创作者用它把电影化视觉风格施加到手机拍摄的素材上。AI 电影人用它对此前那些运动很好、但视觉质感不尽人意的 AI 生成进行风格再处理。在音乐录影带制作中,视频生视频常被用来把直白的表演素材变换为视觉上独具一格的 AI 处理内容,同时不失去表演节奏与音乐之间的同步关系。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
主体清晰、光照良好、背景相对干净,且运动平滑、清晰可读、模型能够准确跟随的片段,往往能产出最流畅的视频生视频输出。运动极快、镜头剧烈抖动、动作复杂重叠或视觉噪点明显的素材,模型更难准确条件化。对于专门用作运动参考的代用素材,把运动的清晰度置于视觉质量之上:AI 读取的是运动,而不是审美。
条件强度支配生成输出对输入视频的结构与运动的遵循程度。在高条件强度下,输出会紧密跟随源素材的构图、主体位置与运动轨迹。在较低条件强度下,模型有更多自由对源素材进行创作性的再诠释,可能为追求视觉上更流畅或风格上更一致的结果而产出偏离原始结构的输出。为某个特定源素材与风格目标找到合适的条件强度,往往需要反复试验。
可以,这正是用于精修与风格再处理的常见工作流。一个运动与构图都很好、但视觉质感不尽人意的 AI 生成,可以用作视频生视频的输入,由第二轮生成施加精炼的视觉引导,同时保留第一轮生成的时间结构。这种迭代方式让创作者可以把“达成正确运动”的问题与“达成正确视觉风格”的问题分开来处理。
视频上采样提升既有视频的空间分辨率(让画面更锐利、更大、更细致),而不改变其视觉风格、运动或内容。视频生视频则根据风格引导变换素材的视觉外观,可能改变画面的审美、色彩处理、纹理与渲染质感,同时保留运动。上采样是一种质量增强;视频生视频是一种创作性的变换。
视频生视频生成通常只在视觉通道上运作,产出变换后的视频输出,而不生成或保留音频。源音频必须单独处理:要么在后期制作中从原始素材中沿用,要么用新的音频元素替换。一些平台可能在其工作流中提供音频保留功能,但生成操作本身聚焦于视觉变换。
从视频输入让一张静态图像动起来,需要一种不同的技法:通常是图生视频生成,它以单一帧作为视觉锚点并从中生成运动。视频生视频需要一个真正带有跨多帧时间信息的视频输入。要让静态图像动起来,请使用图生视频生成,而不是视频生视频。
可施加的风格范围很广,取决于具体生成模型的能力。常见应用包括把实拍素材变换为动画审美、施加绘画或插画式处理、把素材渲染为不同的电影化风格(高对比黑色电影、低饱和纪录片、魔幻时刻的暖调)、施加某种特定类型的视觉处理,或围绕真实世界的运动生成一个奇幻或科幻环境。可用的风格受限于模型所受过的训练,以及文字与图像提示能有效指定的范围。
当前的 AI 视频生成模型通常在一次生成操作中处理大约五到二十秒的片段,不过这在很大程度上因平台与模型而异。对于更长的源素材,常见做法是把素材分成连续片段来处理:把源切分为若干段,分别生成每一段,再在后期剪辑中拼接结果。被分开处理的各段之间的时间一致性,需要在所有段落上对提示词与条件设置保持一致,并加以仔细留意。