Sora

Sora est le modèle de génération texte-vers-vidéo d’OpenAI, annoncé début 2024 et représentant une avancée majeure en synthèse vidéo IA. Le modèle a attiré une large attention pour avoir démontré une combinaison sans précédent de qualité visuelle, cohérence temporelle, plausibilité physique et capacité à générer des scènes complexes à plusieurs éléments à partir de prompts textuels détaillés.

Sora repose sur une architecture de type diffusion transformer qui opère sur des patches de données vidéo dans l’espace et le temps simultanément, lui donnant une compréhension plus holistique de l’évolution des scènes dans le temps que les approches image par image antérieures. Le modèle a montré des forces particulières pour la physique réaliste, les interactions d’objets, le maintien d’environnements et de sujets cohérents sur des clips longs, la compréhension de prompts compositionnels complexes et la production d’images à qualité cinématographique jusque-là inaccessibles à partir du seul texte. Son annonce a représenté un saut qualitatif dans ce que la génération vidéo IA était censée pouvoir faire.

L’annonce de Sora a positionné OpenAI comme acteur majeur de la génération vidéo IA aux côtés d’autres modèles de pointe. En tant que plateforme vidéo d’OpenAI, Sora concurrence directement les autres systèmes de synthèse vidéo de pointe et continue d’évoluer avec de nouvelles versions et capacités. Pour les créateurs, Sora constitue l’un des référentiels par rapport auxquels la qualité et les capacités de la génération vidéo IA sont mesurées.

Can't find what you are looking for?
Contact us and let us know.
bg