マルチモーダルAI
Multi-modal AI(マルチモーダルAI)は、テキスト・画像・音声・動画など複数種類のデータにわたって、各モダリティ用の別個の専門システムを用意せず、単一のモデル内でコンテンツを処理・生成できるAIシステムを指します。マルチモーダルモデルは、画像を理解してテキストで質問に答えたり、文章記述から画像を生成したり、動画を処理して文章の要約を出したりすることを、同じ基盤アーキテクチャ内で行えます。
マルチモーダルAIの開発は、より汎用的なAI能力への大きな一歩です。異なる種類の情報にわたって意味を結びつける——文章記述と写真の両方が同じ概念を表し得ると理解する——能力により、より柔軟で文脈を踏まえたAIの振る舞いが可能になります。画像・動画生成では特に、マルチモーダル能力によりモデルがテキスト・参照画像・音声・動画の組み合わせを同時に入力として受け、テキストだけより豊かで精密な指定で生成を条件づけられます。テキストプロンプトと一緒に画像参照を受け入れる、同期した音声付き動画を生成する、視覚的フィードバックに基づいて出力を適応させるシステムは、いずれもマルチモーダル能力の表れです。
AI生成ツールがよりマルチモーダルになるにつれ、テキストto画像・画像to動画・その他の生成モードの区別は、制作者が意図を最もよく伝える入力の組み合わせ——文章記述・視覚参照・音声のムード・既存映像——を提供し、モデルがそれらすべてをまとめて合成する、より柔軟なワークフローへと溶けていきます。