Un nouveau modèle d’apprentissage automatique «Stable Video Diffusion» peut animer n’importe quelle image fixe.

Le mardi, Stability AI a lancé Stable Video Diffusion, un nouvel outil de recherche en intelligence artificielle gratuit qui peut transformer n’importe quelle image fixe en une courte vidéo, avec des résultats mitigés. C’est un aperçu en poids ouverts de deux modèles d’IA qui utilisent une technique appelée image-to-video et qui peut s’exécuter localement sur une machine équipée d’une carte graphique Nvidia. L’année dernière, Stability AI a fait sensation avec la sortie de Stable Diffusion, un modèle de synthèse d’images «en poids ouverts» qui a déclenché une vague de synthèse d’images ouvertes et a inspiré une large communauté d’amateurs qui ont développé leurs propres ajustements fins à partir de la technologie. Maintenant, Stability veut faire de même avec la synthèse vidéo en IA, bien que la technologie soit toujours en phase de gestation. Pour l’instant, Stable Video Diffusion se compose de deux modèles: l’un qui peut produire une synthèse image-to-video de 14 images de longueur (appelé «SVD»), l’autre qui génère 25 images (appelé «SVD-XT»). Ils peuvent fonctionner à des vitesses variables de 3 à 30 images par seconde et génèrent des clips vidéo courts (de 2 à 4 secondes de longueur en général) en résolution 576×1024. Dans nos tests locaux, une génération de 14 images a pris environ 30 minutes à créer sur une carte graphique Nvidia RTX 3060, mais les utilisateurs peuvent expérimenter le fonctionnement des modèles beaucoup plus rapidement sur le cloud grâce à des services tels que Hugging Face et Replicate (dont certains peuvent être payants). Dans nos expériences, l’animation générée maintient généralement une partie de la scène statique et ajoute des effets de panoramique et de zoom ou anime la fumée ou le feu. Les personnes représentées sur des photos ne bougent souvent pas, bien que nous ayons obtenu une image Getty de Steve Wozniak pour qu’elle prenne légèrement vie. (Note: à l’exception de la photo Getty Images de Steve Wozniak, les autres images animées de cet article ont été générées avec DALL-E 3 et animées à l’aide de Stable Video Diffusion.)

Share the Post: