Turbo Diffusion XL Stable peut générer des images IA aussi vite que vous pouvez taper.

Mardi, Stability AI a lancé Stable Diffusion XL Turbo, un modèle de synthèse d’images AI capable de générer rapidement des images en fonction d’une suggestion écrite. Si rapidement, en fait, que l’entreprise le facture comme une génération d’images en temps réel, car il peut également transformer rapidement des images à partir d’une source, telle qu’une webcam. L’innovation principale de SDXL Turbo réside dans sa capacité à produire des sorties d’image en une seule étape, ce qui représente une réduction significative par rapport aux 20 à 50 étapes nécessaires à son prédécesseur. Stability attribue ce bond en efficacité à une technique qu’elle appelle la distillation de diffusion adversaire (ADD). ADD utilise une distillation de score, où le modèle apprend à partir de modèles de synthèse d’images existants, et une perte adversaire, qui améliore la capacité du modèle à faire la différence entre les images réelles et générées, ce qui améliore la réalisme de la sortie. Stability a détaillé le fonctionnement interne du modèle dans un article de recherche publié mardi qui se concentre sur la technique ADD. L’un des avantages prétendus de SDXL Turbo est sa similitude avec les réseaux génératifs adversaires (GAN), en particulier dans la production de sorties d’image en une seule étape. Les images SDXL Turbo ne sont pas aussi détaillées que les images SDXL produites à des comptes plus élevés, elles ne sont donc pas considérées comme un remplacement du modèle précédent. Mais compte tenu des économies de temps réalisées, les résultats sont époustouflants. Pour l’essayer, nous avons exécuté SDXL Turbo en local sur une carte Nvidia RTX 3060 en utilisant Automatic1111 (les poids tombent comme les poids SDXL), et il peut générer une image 1024 × 1024 en 3 étapes en environ 4 secondes, contre 26,4 secondes pour une image SDXL 20 étapes avec un niveau de détail similaire. Les images plus petites se génèrent beaucoup plus rapidement (moins d’une seconde pour 512 × 768), et bien sûr, une carte graphique plus puissante comme une RTX 3090 ou 4090 permettra des temps de génération beaucoup plus rapides. Contrairement au marketing de Stability, nous avons constaté que les images SDXL Turbo présentent le meilleur niveau de détail entre 3 et 5 étapes par image.

Share the Post: