Question 1

是什么让一个模型真正成为多模态的，而不仅是相连的单模态工具？

Accepted Answer

真正的多模态模型在一个共享的表征框架内处理所有输入模态，从而实现真正的跨模态理解。相连的单模态工具则在各自独立的模型之间传递输出。这一区别之所以重要，是因为共享表征使模型能够跨模态地关联概念，而非仅仅串联起各自独立的过程。

Question 2

多模态 AI 能同时从文本和音频输入生成视频吗？

Accepted Answer

这一能力正在积极发展中。一些当前的研究系统接受文本、音频与图像输入来引导视频生成，不过大多数商用工具接受文本和/或图像输入。音频条件化的视频生成是一个进展迅速的领域，尤其是在音乐视频与叙事内容创作方面。

Question 3

CLIP 与多模态 AI 有何关系？

Accepted Answer

CLIP（对比式语言-图像预训练）是一个里程碑式的模型，它通过在数亿对图像-描述上训练，学会对齐图像与文本表征。这一共享嵌入空间是使文本生成图像模型能将语言描述转译为视觉内容的基础，因而是当前多模态 AI 格局的一块关键基石。

Question 4

多模态模型比单模态模型在计算上更吃力吗？

Accepted Answer

一般来说是的，因为它们必须在更大的共享架构内处理并对齐多种数据类型。然而，高效的多模态架构与量化技术正迅速降低算力需求，许多实用的多模态能力如今可通过云端 API 获取，无需本地硬件。

Question 5

多模态 AI 如何帮助媒体制作中的无障碍？

Accepted Answer

多模态 AI 能为视障观众自动生成视觉内容的音频描述、从音轨产生字幕与转写，并从文本创建手语动画：这些任务此前都需要大量人工。这是广播与流媒体制作中一个不断增长的应用领域。

Question 6

当前多模态 AI 系统的主要局限有哪些？

Accepted Answer

当前的局限包括跨模态一致性不完善（生成的图像可能与文本描述不精确匹配）、跨模态的精确空间与关系推理困难，以及各模态能力参差不齐：多数系统在文本与图像上比在音频与视频上更强。幻觉（模型自信地产出不正确信息）在视觉问答与图像描述任务中也是一个挑战。

多模态 AI

多模态 AI是什么？