Google a introduit VideoPOET, ouvrant de nouvelles perspectives dans la génération cohérente de vidéos.

Après que l’IA Copilot de Microsoft a acquis la capacité de générer des extraits audio à partir de textes, Google a introduit VideoPoet, un modèle linguistique de grande envergure (LLM) qui repousse les limites de la génération vidéo avec des clips de 10 secondes produisant moins d’artefacts. Le modèle prend en charge une gamme de tâches de génération vidéo, notamment la conversion texte-vidéo, la transformation image-vidéo, la stylisation vidéo, le comblement des vides et les fonctionnalités audio-vidéo. Contrairement à ses prédécesseurs, VideoPoet se distingue en excellant dans la génération de vidéos à grand mouvement cohérent. Le modèle démontre son expertise en produisant des vidéos de dix secondes, surpassant ainsi ses concurrents, y compris Gen-2. À noter, VideoPoet ne dépend pas de données spécifiques pour la génération de vidéos, le distinguant des autres modèles qui nécessitent une entrée détaillée pour des résultats optimaux. Cette capacité multifacette est rendue possible en exploitant un modèle linguistique multi-modal, ouvrant ainsi la voie à une potentielle généralisation de la génération vidéo. VideoPoet de Google rompt avec la tendance dominante des modèles de génération vidéo, qui dépendent principalement de méthodes de diffusion. Au lieu de cela, VideoPoet exploite la puissance des modèles linguistiques de grande envergure (LLMs). Le modèle intègre de manière transparente diverses tâches de génération vidéo au sein d’un seul LLM, éliminant ainsi le besoin de composants spécialement entraînés pour chaque fonction. Les vidéos résultantes présentent une longueur variable et des actions et styles diversifiés en fonction du contenu texte d’entrée. De plus, VideoPoet peut convertir des images d’entrée en animations en fonction des indications fournies, démontrant ainsi son adaptabilité à différentes entrées.

Share the Post: