Après que l’IA Copilot de Microsoft ait acquis la capacité de générer des clips audio à partir de textes sollicités, Google a présenté VideoPoet, un large modèle de langage (LLM) qui pousse les limites de la génération de vidéos avec des clips de 10 secondes qui produisent moins d’artifacts. Le modèle prend en charge une gamme de tâches de génération de vidéos, notamment la conversion de texte en vidéo, la transformation d’image en vidéo, la stylisation vidéo, le remplissage et les fonctionnalités audio-vidéo. Contrairement à ses prédécesseurs, VideoPoet se distingue par sa capacité à générer des vidéos cohérentes avec de grands mouvements. Le modèle met en œuvre ses compétences en produisant des vidéos de dix secondes de long, laissant derrière lui ses concurrents, y compris Gen-2. Notamment, VideoPoet ne s’appuie pas sur des données spécifiques pour la génération de vidéos, ce qui le distingue des autres modèles qui requièrent une entrée détaillée pour des résultats optimaux. Cette capacité multifonctionnelle est rendue possible par l’utilisation d’un modèle multimodal de grande taille, le plaçant sur une trajectoire potentielle pour devenir la norme en matière de génération de vidéos. VideoPOET de Google s’éloigne du courant prévalant dans les modèles de génération de vidéos, qui reposent principalement sur des approches basées sur la diffusion. Au lieu de cela, VideoPoet utilise la puissance des grands modèles de langage (LLM). Le modèle intègre de manière transparente diverses tâches de génération de vidéos au sein d’un LLM unique, ce qui élimine le besoin de composants entraînés séparément pour chaque fonction. Les vidéos résultantes présentent une longueur variable et des actions et styles divers en fonction du contenu du texte d’entrée. De plus, VideoPoet peut convertir les images d’entrée en animations en fonction des invitations fournies, mettant en évidence son adaptation à différentes entrées.
Équilibrer la Numérisation et la Sobriété Numérique dans la Formation Professionnelle : Solutions Actuelles et Besoins Émergents
La formation professionnelle tout au long de la vie (FTLV) connaît une transformation significative dans le contexte actuel de numérisation