Google a introduit VideoPOET, ouvrant la voie à une nouvelle génération de vidéos cohérentes.

Après que l’IA Copilot de Microsoft ait acquis la capacité de générer des clips audio à partir de textes, Google a introduit VideoPoet, un grand modèle de langage (LLM) qui repousse les limites de la génération de vidéos avec des clips de 10 secondes qui produisent moins d’artefacts. Le modèle prend en charge une gamme de tâches de génération de vidéos, notamment la conversion de texte en vidéo, la transformation d’images en vidéos, la stylisation vidéo, le remplissage et les fonctionnalités audio-vidéo. À la différence de ses prédécesseurs, VideoPoet se démarque par sa capacité à générer des vidéos de grande ampleur cohérentes. Le modèle montre sa force en produisant des vidéos de 10 secondes de long, laissant derrière lui sa concurrence, y compris Gen-2. Notamment, VideoPoet ne s’appuie pas sur des données spécifiques pour la génération de vidéos, ce qui le distingue d’autres modèles qui nécessitent une entrée détaillée pour des résultats optimaux. Cette capacité multifonctionnelle est rendue possible grâce à l’utilisation d’un grand modèle multimodal, le mettant sur une trajectoire potentiellement devenue la norme en matière de génération de vidéos. Le VideoPOET de Google s’éloigne du modèle dominant en matière de génération de vidéos, qui repose principalement sur des approches de diffusion. Au lieu de cela, VideoPoet exploite la puissance des grands modèles de langage (LLM). Le modèle intègre de manière transparente diverses tâches de génération de vidéos au sein d’un seul LLM, ce qui élimine le besoin de composants entraînés séparément pour chaque fonction. Les vidéos résultantes présentent une longueur variable et des actions et styles divers en fonction du contenu du texte d’entrée. De plus, VideoPoet peut convertir des images d’entrée en animations en fonction de directives fournies, mettant en évidence sa capacité d’adaptation à différentes entrées.

Share the Post: