‘Les vues fausses pour gagner: les modèles d’images-texte apprennent plus efficacement avec des données inventées’

Les images synthétiques peuvent aider les modèles IA à apprendre des représentations visuelles plus précisément que les vraies photos, selon des informaticiens du MIT et de Google. Le résultat est des réseaux neuronaux mieux à même de produire des images à partir de vos descriptions écrites. Au cœur de tous les modèles de texte à image se trouve leur capacité à mapper des objets sur des mots. À partir d’une invite de texte en entrée – par exemple «un enfant tenant un ballon rouge par une journée ensoleillée» – ils devraient renvoyer une image approchant la description. Pour ce faire, ils doivent apprendre les représentations visuelles de ce qu’un enfant, un ballon rouge et une journée ensoleillée pourraient ressembler. Le MIT-Google croit que les réseaux neuronaux peuvent générer des images plus précises à partir d’invites après avoir été formés aux images générées par l’IA plutôt qu’aux photos réelles. Pour démontrer cela, l’équipe a développé StableRep, qui apprend comment transformer des légendes descriptives en images correctes correspondantes à partir d’images générées par le populaire modèle de texte à image Stable Diffusion. En d’autres termes : en utilisant un modèle IA établi et formé pour enseigner aux autres modèles. Comme l’indique le papier pré-impression, publié via arXiv à la fin du mois dernier, les représentations apprises par StableRep surpassent les performances des représentations apprises par SimCLR et CLIP en utilisant le même jeu d’invites de texte et d’images réelles correspondantes, sur de larges datasets. SimCLR et CLIP sont des algorithmes d’apprentissage machine qui peuvent être utilisés pour créer des images à partir d’invites de texte.

Share the Post: