Comment les modèles d’IA parviennent-ils à générer des vidéos ?

Comment les modèles d’IA parviennent-ils à générer des vidéos ?

Depuis quelques mois, la génération vidéo par intelligence artificielle progresse à une vitesse impressionnante. OpenAI a présenté Sora, Google DeepMind a lancé Veo 3, et la startup Runway a dévoilé Gen-4. Ces outils peuvent créer des séquences si réalistes qu’il devient presque impossible de les distinguer d’une vraie vidéo ou d’une animation professionnelle.

Pour la plupart des gens, cela passe par une simple application. Il suffit d’écrire une requête comme “Montre-moi un chat qui se bat avec un chien”. Le résultat n’est pas toujours parfait du premier coup, et il faut souvent plusieurs essais avant d’obtenir une version convaincante.

Derrière cette apparente simplicité se cache une technologie très complexe, basée sur ce qu’on appelle des modèles de diffusion latente ou latent diffusion transformers.

Le principe du modèle de diffusion

Imaginez une image sur laquelle on ajoute, petit à petit, du “bruit”, jusqu’à la transformer en un amas de pixels sans forme. Le modèle de diffusion apprend à faire l’inverse : il part de ce chaos pour recréer une image claire et cohérente. Pendant son apprentissage, il observe des millions d’images à différents niveaux de dégradation, et il apprend à reconstituer les détails perdus.

Mais pour générer une image précise, il faut qu’il soit guidé. C’est là qu’intervient un autre modèle, souvent un grand modèle de langage (LLM), capable de faire le lien entre les mots et les images. Ce dernier oriente le modèle de diffusion pour qu’il produise une image correspondant à la description textuelle donnée.

Les ensembles de données utilisés pour cet apprentissage proviennent en grande partie d’images et de vidéos récupérées sur Internet. Cela pose d’ailleurs des questions éthiques, notamment sur le droit d’auteur et les biais présents dans ces contenus.

Ce principe fonctionne aussi bien pour les images que pour le son ou la vidéo. Pour créer un film, le modèle doit traiter une succession d’images (les différentes frames) tout en maintenant la cohérence entre elles.

Lire aussi : Le mythe du mode « Navigation privée » de Google Chrome

La diffusion “latente”

Travailler sur des millions de pixels consomme énormément de ressources. C’est pourquoi la plupart des modèles récents utilisent la diffusion latente. Plutôt que de manipuler directement les pixels, le modèle compresse les données dans un espace latent : une version mathématique simplifiée qui conserve uniquement les éléments essentiels de la vidéo.

C’est un peu comme le streaming : la vidéo est compressée pour être transmise plus vite, puis décompressée pour l’affichage.
Une fois que le modèle a produit une version “compressée” correspondant à la demande, celle-ci est ensuite convertie en une vidéo visible. Ce procédé réduit considérablement le coût énergétique, même s’il reste bien supérieur à celui d’un générateur d’images.

Le rôle du transformeur

Pour que la vidéo soit fluide et cohérente d’une image à l’autre, les chercheurs combinent la diffusion avec un autre type de modèle : le transformeur. C’est cette approche qu’OpenAI a utilisée pour Sora, et elle s’est rapidement imposée comme une norme.

Les transformeurs sont très efficaces pour traiter de longues séquences, comme des phrases dans un texte. Ils assurent la cohérence et la continuité, ce qui évite que des éléments disparaissent ou changent brutalement d’une image à l’autre.

Concrètement, la vidéo est découpée en petits blocs d’espace et de temps. Chaque fragment est ensuite traité comme une unité de données. Cette méthode permet d’entraîner les modèles sur toutes sortes de formats, du clip vertical de smartphone jusqu’au film en grand écran.

Et le son dans tout ça ?

Une avancée majeure vient de Veo 3, capable de générer le son en même temps que l’image.
Jusqu’ici, les vidéos créées par IA étaient muettes. Désormais, elles peuvent inclure des dialogues synchronisés, des bruits d’ambiance ou des effets sonores. Google DeepMind a réussi à faire cela en compressant l’audio et la vidéo ensemble, afin qu’ils soient produits simultanément et parfaitement synchronisés.

Lire aussi : Pourquoi vous devriez nettoyer vos vieux historiques de discussions

Diffusion ou transformeur, quelle différence ?

Les deux approches ne servent pas tout à fait aux mêmes choses.

Les modèles de diffusion excellent dans la génération d’images, de sons ou de vidéos.
Les transformeurs, eux, sont à la base des modèles de langage comme GPT-5 ou Gemini, spécialisés dans le texte et le code.

Mais la frontière s’amincit. De plus en plus de chercheurs combinent les deux méthodes. D’ailleurs, Google DeepMind expérimente aujourd’hui un grand modèle de langage qui utilise la diffusion au lieu du transformeur pour créer du texte. Cette méthode pourrait être bien plus économe en énergie que les systèmes actuels.

Les modèles de diffusion ne vont pas disparaître. Au contraire, ils s’imposent peu à peu comme une base essentielle de la création numérique. Dans les prochaines années, ils pourraient transformer non seulement la vidéo, mais aussi la musique, le cinéma et peut-être même la façon dont nous écrivons.