« Des vues fausses pour gagner: les modèles d’images textuelles apprennent plus efficacement avec des données inventées »

Des images synthétiques peuvent aider les modèles d’IA à apprendre des représentations visuelles plus précisément que des clichés réels, selon des chercheurs en informatique de l’Université MIT et de Google. Le résultat est des réseaux neuronaux qui sont mieux à même de faire des images à partir de vos descriptions écrites. Au cœur de tous les modèles de texte-à-image se trouve leur capacité à mapper des objets sur des mots. À partir d’une invitation textuelle d’entrée, par exemple « un enfant tenant un ballon rouge sous un soleil éclatant », ils doivent retourner une image approchant la description. Pour cela, ils doivent apprendre les représentations visuelles de ce qu’un enfant, un ballon rouge et un jour ensoleillé peuvent ressembler. L’équipe MIT-Google pense que les réseaux neuronaux peuvent générer des images plus précises à partir d’invitations après avoir été formés à partir d’images créées par des IA, plutôt que d’utiliser des clichés réels. Pour démontrer cela, le groupe a développé StableRep, qui apprend comment transformer des légendes descriptives écrites en images correctes correspondantes à partir d’images générées par le populaire modèle open source de texte-à-image Stable Diffusion. En d’autres termes : en utilisant un modèle IA établi et formé pour enseigner à d’autres modèles. Comme le précisent les scientifiques dans leur article pré-impression, publié via arXiv à la fin du mois dernier : « Avec uniquement des images synthétiques, les représentations apprises par StableRep surpassent les performances des représentations apprises par SimCLR et CLIP en utilisant le même ensemble de textes d’invitation et d’images réelles correspondantes, sur des datasets à grande échelle. » SimCLR et CLIP sont des algorithmes d’apprentissage machine qui peuvent être utilisés pour créer des images à partir d’invitations textuelles.

Share the Post: