Question 1

什么是Grok Imagine Video 1.5？

Accepted Answer

Grok Imagine Video 1.5是xAI的图像生成视频模型，于2026年5月30日以预览版形式发布。它把一张静态图像（或一句文本Prompt）动画化为带原生同步音频的片段，包括音乐、音效和唇形同步对话，并支持视频续接和参考图引导生成。

Question 2

Grok Imagine Video 1.5会生成音频吗？

Accepted Answer

会。音频与视频原生一同生成，并与画面动作保持同步。一次生成就能包含背景音乐、音效和唇形同步对话，因此在片段渲染完成后无需再单独做一遍音频处理。

Question 3

在Morphic上如何使用Grok Imagine Video 1.5？

Accepted Answer

打开Morphic，将提示栏切换到视频模式，并在模型选择器中选择Grok Imagine Video 1.5。附加一张起始图像，描述你想要的动作以及任何对话或声音，然后运行Prompt。需要调整时，在下一条消息中说明即可。

Question 4

Grok Imagine Video 1.5支持哪些输入？

Accepted Answer

用于图像生成视频时，它支持一张图像加一句文本Prompt；用于文本生成视频时，也可单独使用一句文本Prompt。你还可以传入参考图来引导风格、角色和构图，并通过视频续接从片段的最后一帧继续生成。

Question 5

Grok Imagine Video 1.5的片段有多长？

Accepted Answer

片段长度可配置，最长15秒。若需更长的序列，可使用视频续接从片段的最后一帧继续，并从同一张起始图像把多个镜头串联起来。

Question 6

Grok Imagine Video 1.5输出什么分辨率？

Accepted Answer

你可以在480p或720p、24帧每秒下生成，并可配置画面比例，用于横向、方形或竖向交付。每次生成都能按你要发布的平台选择分辨率。

Question 7

从Grok Imagine 1.0到1.5有哪些变化？

Accepted Answer

1.5版本聚焦于音频、一致性和整体质量，对复杂多要素场景的Prompt遵循更强，生成更快也更稳定。相比上一代模型，原生同步音频和视频续接是最主要的新增能力。

Question 8

Grok Imagine Video 1.5与Seedance 2.0相比如何？

Accepted Answer

两者都是带原生音频的视频模型。Seedance 2.0每次生成最多支持12个混合素材，具备音乐节拍同步，分辨率1080p，时长4到15秒。Grok Imagine Video 1.5以图像生成视频为核心，支持唇形同步对话和音效、视频续接以及参考图引导控制，分辨率480p或720p，最长15秒。

Question 9

这与Morphic上的Grok Imagine模型有何不同？

Accepted Answer

原版Grok Imagine是xAI的跨模态模型，涵盖文本生成图像、图像编辑以及多条视频路径。Grok Imagine Video 1.5是专门的视频版本，针对图像生成视频做了调优，具备原生同步音频、唇形同步对话和视频续接。

Grok Imagine v1.5

核心功能