Google a introduit VideoPOET, ouvrant de nouvelles perspectives dans la génération de vidéos cohérentes.

Après que l’IA Copilot de Microsoft ait acquis la capacité de générer des extraits audio à partir de prompts textuels, Google a introduit VideoPoet, un modèle linguistique de grande envergure (LLM) qui repousse les limites en matière de génération de vidéos avec des extraits de 10 secondes qui produisent moins d’artefacts. Le modèle prend en charge une gamme de tâches de génération de vidéos, y compris la conversion de texte en vidéo, la transformation d’image en vidéo, la stylisation de vidéo, le comblement des vides et les fonctionnalités vidéo-audio. Contrairement à ses prédécesseurs, VideoPoet se distingue en excellant dans la génération de vidéos à mouvement ample et cohérent. Le modèle met en valeur son savoir-faire en produisant des vidéos de dix secondes, surpassant ainsi ses concurrents, y compris Gen-2. Notamment, VideoPoet ne dépend pas de données spécifiques pour la génération de vidéos, ce qui le distingue des autres modèles qui nécessitent une saisie détaillée pour des résultats optimaux. Cette capacité multifacette est rendue possible en exploitant un modèle linguistique multimodal, le plaçant potentiellement sur la voie de devenir la norme en matière de génération de vidéos. VideoPOET de Google s’éloigne de la tendance dominante dans les modèles de génération de vidéos, qui reposent principalement sur des approches basées sur la diffusion. Au contraire, VideoPoet exploite la puissance des grands modèles linguistiques (LLMs). Le modèle intègre de manière transparente différentes tâches de génération de vidéos au sein d’un seul LLM, éliminant ainsi le besoin de composants distincts entraînés séparément pour chaque fonction. Les vidéos résultantes présentent une longueur variable et des actions et styles diversifiés en fonction du contenu textuel fourni. De plus, VideoPoet peut convertir des images d’entrée en animations en fonction des indications fournies, démontrant ainsi son adaptabilité à différentes entrées.

Share the Post: