Google a introduit VideoPOET, ouvrant la voie à une nouvelle génération de vidéos cohérentes.

Après que l’IA Copilot de Microsoft ait acquis la capacité de générer des clips audio à partir de textes, Google a lancé VideoPoet, un grand modèle de langage (LLM) qui pousse les limites de la génération de vidéos avec des clips de 10 secondes qui produisent moins d’artefacts. Le modèle prend en charge une gamme de tâches de génération de vidéos, notamment la conversion texte-vidéo, la transformation image-vidéo, la stylisation vidéo, le remplissage et les fonctionnalités audio-vidéo. Contrairement à ses prédécesseurs, VideoPoet se démarque par sa capacité à générer des vidéos cohérentes avec de grands mouvements. Le modèle met en œuvre ses capacités en produisant des vidéos de dix secondes de longueur, laissant derrière lui ses concurrents, y compris Gen-2. Notamment, VideoPoet ne s’appuie pas sur des données spécifiques pour la génération de vidéos, ce qui le distingue des autres modèles qui nécessitent une entrée détaillée pour des résultats optimaux. Cette polyvalence est rendue possible grâce à l’utilisation d’un modèle large multi-modal, le positionnant sur une trajectoire potentielle pour devenir la norme en matière de génération de vidéos. Le VideoPOET de Google s’écarte de la tendance prédominante en matière de génération de modèles vidéo, qui repose principalement sur des approches de diffusion. Au lieu de cela, VideoPoet utilise la puissance de grands modèles de langage (LLM). Le modèle intègre de manière transparente diverses tâches de génération de vidéos dans un seul LLM, ce qui élimine la nécessité de composants entraînés séparément pour chaque fonction. Les vidéos résultantes présentent une longueur variable et des actions et styles diversifiés en fonction du contenu du texte d’entrée. De plus, VideoPoet peut convertir des images d’entrée en animations en fonction des indices fournis, mettant en œuvre sa capacité d’adaptation à différentes entrées.

Share the Post: