Google a introduit VideoPOET en ouvrant de nouvelles perspectives dans la génération cohérente de vidéos.

Après que le système d’intelligence artificielle Copilot de Microsoft ait acquis la faculté de générer des extraits audio à partir de requêtes textuelles, Google a introduit VideoPoet, un modèle linguistique de grande envergure qui repousse les limites de la génération vidéo avec des extraits de 10 secondes produisant moins d’artefacts. Le modèle prend en charge plusieurs tâches de génération vidéo, notamment la conversion texte-vidéo, la transformation image-vidéo, la stylisation vidéo, le comblement et les fonctionnalités audio-vidéo. Contrairement à ses prédécesseurs, VideoPoet se distingue en excellant dans la génération de vidéos fluides à mouvements importants. Le modèle démontre sa puissance en produisant des vidéos de dix secondes, surpassant ainsi ses concurrents, y compris Gen-2. Il convient de noter que VideoPoet ne dépend pas de données spécifiques pour la génération vidéo, ce qui le distingue des autres modèles nécessitant des données détaillées pour des résultats optimaux. Cette capacité multifacette est rendue possible grâce à l’utilisation d’un modèle linguistique multimodal de grande envergure, le propulsant potentiellement vers la génération vidéo grand public. VideoPOET de Google s’éloigne de la tendance dominante des modèles de génération vidéo qui reposent principalement sur des approches basées sur la diffusion. Au lieu de cela, VideoPoet exploite la puissance des modèles linguistiques de grande envergure (LLM). Le modèle intègre de manière transparente différentes tâches de génération vidéo au sein d’un seul LLM, éliminant ainsi le besoin de composants distincts pour chaque fonction. Les vidéos résultantes présentent une longueur variable et des actions et styles divers en fonction du contenu textuel d’entrée. De plus, VideoPoet peut convertir des images en animations en fonction des instructions fournies, démontrant ainsi son adaptabilité à différents types d’entrées.

Share the Post:

Google a introduit VideoPOET en ouvrant de nouvelles perspectives dans la génération cohérente de vidéos.

Related Posts

Hip Hop 2073 : Une vision du futur, dans 50 ans.

‘‘Tu dois croire que tu peux le réparer’’

À l’intérieur du monde profondément nerdy – et incroyablement cher – de la collection de accessoires de Hollywood

Les meilleurs vélos électriques bon marché de moins de 2 000 $.

Le meilleur iPad à acheter (et ceux à éviter)

« Revue : Enceintes bibliothèque SVS Ultra Evolution »

« Revue : Artiphon Chorda – Manche à frettes numérique »

‘Quelles lumières intelligentes Nanoleaf devriez-vous acheter?’