Après que l’IA Copilote de Microsoft a obtenu la capacité de générer des extraits audio à partir de prompts texte, Google a introduit VideoPoet, un modèle de langage large (LLM) qui repousse les limites de la génération de vidéos avec des extraits de 10 secondes produisant moins d’artefacts. Le modèle prend en charge une variété de tâches de génération de vidéos, notamment la conversion texte-vidéo, la transformation image-vidéo, la stylisation vidéo, le comblement des vides et les fonctionnalités vidéo-audio. Contrairement à ses prédécesseurs, VideoPoet se distingue par son excellente capacité à générer des vidéos à grand mouvement cohérent. Le modèle démontre son talent en produisant des vidéos de dix secondes, surpassant ainsi ses concurrents, dont le modèle Gen-2. Il convient de souligner que VideoPoet ne dépend pas de données spécifiques pour la génération de vidéos, ce qui le distingue des autres modèles nécessitant des entrées détaillées pour des résultats optimaux. Cette capacité multifacette est rendue possible en exploitant un modèle large multimodal, ce qui pourrait le propulser sur le devant de la scène de la génération de vidéos. VideoPOET de Google prend une direction différente de la tendance dominante des modèles de génération de vidéos, qui reposent principalement sur des approches basées sur la diffusion. Au lieu de cela, VideoPoet exploite la puissance des modèles de langage larges (LLM). Le modèle intègre de manière transparente diverses tâches de génération de vidéos au sein d’un seul LLM, éliminant ainsi la nécessité de composants indépendamment entraînés pour chaque fonction. Les vidéos résultantes présentent une longueur variable ainsi que des actions et des styles diversifiés en fonction du contenu texte fourni. De plus, VideoPoet peut réaliser la conversion d’images d’entrée en animations en fonction des instructions fournies, ce qui démontre son adaptabilité à différents types d’entrées.
Équilibrer la Numérisation et la Sobriété Numérique dans la Formation Professionnelle : Solutions Actuelles et Besoins Émergents
La formation professionnelle tout au long de la vie (FTLV) connaît une transformation significative dans le contexte actuel de numérisation