Omnihuman
Omnihuman是什么?
Omnihuman 是 ByteDance 推出的 AI 模型,可让一张人物静态照片在音轨或动作数据驱动下,逼真地动起来并开口说话。
一图看懂
- Type of model
- 由图像、音频与动作输入驱动的人体视频生成与动画模型
- Developed by
- ByteDance Research
- Key capability
- 从单张图像生成全身人体视频,具备音频驱动的唇形同步与身体动画或动作迁移
- How it fits in AI workflow
- 用于创建动画化的数字人主持人、AI 虚拟形象视频、说话人头像与全身动画,以及视频制作中的动作迁移
- 相关术语
- SynthesiaTalking headMotion captureDigital humanLip sync
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
对比与差异
Compared with related concepts
Omnihuman vs Synthesia:两者都能从相对极少的输入产出人体视频,但 Synthesia 是一个商业平台,专注于用预制或定制虚拟形象为商业沟通制作 AI 主持人视频,而 Omnihuman 是一个研究模型,专注于从任意单张图像生成全身人体动画的技术推进,并具备更广的泛化能力。
实用提示
使用 Omnihuman 这类模型从单张图像让人物动起来时,图像质量影响显著:使用高分辨率、光照良好、能清晰看到面部与全身的参考图,可获得最自然、最一致的动画输出。
类型与变体
Omnihuman 被定位为一个旨在应对多样条件的统一模型,而非一系列各自独立的变体模型。它接受不同驱动信号(音频、动作或两者结合)的能力,使其能在单一架构内灵活胜任从说话人头像视频到全身动作动画的多种用例。
准备好在 Morphic 里做第一个场景了吗?
试用 Morphic常见使用场景
Omnihuman 适用于从单张照片创建动画化的 AI 主持人与虚拟形象、为内容创作产出说话人头像或全身视频、虚拟试穿与时尚动画、本地化流程中的配音及音频驱动的面部与身体动画,并可作为 AI 电影制作工具中人体视频生成能力的研究参照点。
准备好开始创作了吗?
执导场景、设计角色、完成整部影片
一站式 AI 创作平台,定价简单透明,无速度节流,搭配无限 Canvas,让创作发挥到极致。
常见问题(FAQ)
Omnihuman 是由 ByteDance Research 开发的 AI 视频生成模型,可在音频或动作输入的驱动下,从单张参考图像生成逼真的全身人体视频。
Omnihuman 由 ByteDance Research 开发,这是 ByteDance 的研究部门:ByteDance 是 TikTok 与 CapCut 背后的公司。
Omnihuman 能让全身人体主体动起来:包括面部表情、唇部动作与身体运动:而不仅仅是面部。它的设计能够应对多样的体型、服装与环境。
Omnihuman 支持音频驱动动画,使人物动作与语音或音轨同步;以及动作驱动动画,将动作从参考动作源迁移到目标人物身上。
Omnihuman 是 ByteDance 的一个研究模型。其公开可用性与商业部署取决于 ByteDance 的发布决定。请查阅官方研究论文与 ByteDance 的开发者平台,了解当前的获取方式。
两者都能从极少的输入产出动画化的人体视频,但 Synthesia 是面向 AI 主持人视频的商业产品,而 Omnihuman 是一个研究模型,正在推进从任意图像生成全身人体动画的边界。Omnihuman 这类模型的底层研究会随时间为商业工具的能力提供支撑。