La diffusion stable XL Turbo peut générer des images IA aussi vite que vous pouvez taper.

Mardi, Stability AI a lancé Stable Diffusion XL Turbo, un modèle de synthèse d’images IA capable de générer rapidement des images en fonction d’un prompt écrit. Si rapidement, en fait, que l’entreprise l’annonce comme une génération d’images en temps réel, car elle peut également transformer rapidement des images à partir d’une source, comme une webcam. La principale innovation de SDXL Turbo réside dans sa capacité à produire des images de sortie en une seule étape, ce qui représente une réduction significative par rapport aux 20 à 50 étapes nécessaires à son prédécesseur. Stability attribue ce bond en efficacité à une technique qu’elle appelle Adversarial Diffusion Distillation (ADD). ADD utilise une distillation des scores, où le modèle apprend à partir de modèles de synthèse d’images existants, et une perte adversaire, qui améliore la capacité du modèle à faire la différence entre les images réelles et générées, améliorant ainsi la réalisme de la sortie. Stability a détaillé le fonctionnement interne du modèle dans un article de recherche publié mardi qui se concentre sur la technique ADD. L’un des avantages prétendus de SDXL Turbo est sa similarité aux réseaux adversaires génératifs (GAN), en particulier dans la production d’images de sortie en une seule étape. Les images SDXL Turbo ne sont pas aussi détaillées que les images SDXL produites à des comptes-pas plus élevés, elles ne sont donc pas considérées comme un remplacement du modèle précédent. Mais compte tenu des économies de temps, les résultats sont étonnants. Pour l’essayer, nous avons exécuté SDXL Turbo localement sur une carte graphique Nvidia RTX 3060 en utilisant Automatic1111 (les poids tombent en place comme les poids SDXL), et il peut générer une image de 1024 x 1024 à 3 étapes en environ 4 secondes, contre 26,4 secondes pour une image SDXL de 20 étapes avec un niveau de détail similaire. Les images plus petites se génèrent beaucoup plus rapidement (moins d’une seconde pour 512 x 768), et bien sûr, une carte graphique plus puissante comme une RTX 3090 ou 4090 permettra des temps de génération beaucoup plus rapides. Contrairement au marketing de Stability, nous avons constaté que les images SDXL Turbo ont le meilleur détail autour de 3 à 5 étapes par image.

Share the Post: