‘Stability annonce Stable Diffusion 3, un générateur d’images AI de nouvelle génération’

Le jeudi, Stability AI a annoncé Stable Diffusion 3, un modèle de synthèse d’images de prochaine génération à poids ouverts. Il suit ses prédécesseurs en générant, selon les rapports, des images détaillées multi-sujets avec une qualité améliorée et une précision accrue dans la génération de texte. L’annonce brève n’était pas accompagnée d’une démonstration publique, mais Stability ouvre aujourd’hui une liste d’attente pour ceux qui souhaiteraient l’essayer. Stability indique que sa famille de modèles Stable Diffusion 3 (qui prend des descriptions de texte appelées « prompts » et les transforme en images correspondantes) varie en taille de 800 millions à 8 milliards de paramètres. La plage de tailles permet de faire fonctionner différentes versions du modèle localement sur une variété d’appareils, des smartphones aux serveurs. La taille des paramètres correspond approximativement à la capacité du modèle en termes de quantité de détails qu’il peut générer. Les modèles plus grands nécessitent également plus de VRAM sur les accélérateurs GPU pour fonctionner. Depuis 2022, nous avons vu Stability lancer une série de modèles de génération d’images par AI : Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, et maintenant 3. Stability s’est fait un nom en tant que fournisseur d’une alternative plus ouverte aux modèles de synthèse d’images propriétaires comme le DALL-E 3 d’OpenAI, mais pas sans controverse en raison de l’utilisation de données d’entraînement protégées par des droits d’auteur, de biais et du potentiel d’abus. (Cela a donné lieu à des poursuites judiciaires qui sont en suspens.) Les modèles Stable Diffusion ont été à poids ouverts et accessibles aux sources, ce qui signifie que les modèles peuvent être exécutés localement et affinés pour modifier leurs sorties. En ce qui concerne les améliorations technologiques, le PDG de Stability, Emad Mostaque, a écrit sur X : « Cela utilise un nouveau type de transformateur de diffusion (similaire à Sora) combiné à une correspondance de flux et à d’autres améliorations. Cela tire parti des améliorations du transformateur et peut non seulement évoluer davantage mais accepter des entrées multimodales. » Comme l’a dit Mostaque, la famille Stable Diffusion 3 utilise une architecture de transformateur de diffusion, qui est une nouvelle manière de créer des images avec l’AI qui remplace les blocs de construction d’images habituels (comme l’architecture U-Net) par un système qui fonctionne sur de petites parties de l’image. La méthode s’inspire des transformateurs, qui sont efficaces pour traiter des motifs et des séquences. Cette approche permet non seulement de s’agrandir de manière efficace mais produit également, selon les rapports, des images de meilleure qualité.

Share the Post: