Google a introduit VideoPOET en ouvrant de nouvelles possibilités dans la génération cohérente de vidéos.

Après que l’IA Copilot de Microsoft ait acquis la capacité de générer des extraits audio à partir de textes, Google a présenté VideoPoet, un grand modèle de langage (LLM) qui repousse les limites de la génération de vidéos avec des extraits de dix secondes produisant moins d’artefacts. Le modèle prend en charge une série de tâches de génération de vidéos, dont la conversion texte-vidéo, la transformation image-vidéo, la stylisation vidéo, l’effacement, et les fonctionnalités audio-vidéo. Contrairement à ses prédécesseurs, VideoPoet se distingue par sa capacité à générer des vidéos à grands mouvements cohérents. Le modèle démontre son expertise en produisant des vidéos de dix secondes, surpassant ainsi sa concurrence, y compris Gen-2. Il est à noter que VideoPoet n’a pas besoin de données spécifiques pour la génération de vidéos, ce qui le distingue des autres modèles nécessitant une entrée détaillée pour des résultats optimaux. Cette capacité multifacette est rendue possible grâce à l’utilisation d’un modèle de langage multimodal, ce qui lui permet de potentiellement devenir le courant dominant dans la génération de vidéos. Le VideoPoet de Google se démarque de la tendance prédominante des modèles de génération de vidéos, qui reposent principalement sur des approches basées sur la diffusion. Au lieu de cela, VideoPoet exploite la puissance des grands modèles de langage (LLMs). Le modèle intègre de manière transparente différentes tâches de génération de vidéos au sein d’un seul LLM, éliminant ainsi le besoin de composants séparément entraînés pour chaque fonction. Les vidéos résultantes présentent des longueurs variables ainsi que des actions et des styles variés en fonction du contenu textuel fourni. De plus, VideoPoet peut convertir des images d’entrée en animations en fonction des indications fournies, démontrant ainsi son adaptabilité à différentes entrées.

Share the Post: