Des vues fausses pour gagner : les modèles de texte-à-image apprennent plus efficacement avec des données fictives

Les images synthétiques peuvent aider les modèles IA à apprendre des représentations visuelles plus précisément que les photos réelles, selon des informaticiens du MIT et de Google. Le résultat est que les réseaux neuronaux sont mieux à même de produire des images à partir de vos descriptions écrites. Au cœur de tous les modèles de texte-à-image se trouve leur capacité à mapper des objets en mots.  À partir d’une invite de texte en entrée, par exemple «un enfant qui tient un ballon rouge sous un soleil éclatant», ils doivent produire une image approximative de la description. Pour ce faire, ils doivent apprendre les représentations visuelles de ce qu’est un enfant, un ballon rouge et un soleil éclatant. L’équipe du MIT-Google croit que les réseaux neuronaux peuvent générer des images plus précises à partir de ces invitations après avoir été formés sur des images créées par l’IA plutôt que sur des clichés réels. Pour démontrer cela, ils ont développé StableRep, qui apprend comment transformer des légendes descriptives en images correctes correspondantes à partir d’images générées par le populaire modèle de texte-à-image open source Stable Diffusion. Autrement dit : en utilisant un modèle IA établi et formé pour enseigner aux autres modèles. Comme le précisent les scientifiques dans leur article pré-impression publié via arXiv à la fin du mois dernier : «Avec uniquement des images synthétiques, les représentations apprises par StableRep surpassent les performances des représentations apprises par SimCLR et CLIP en utilisant le même ensemble de textes d’invite et d’images réelles correspondantes, sur de larges ensembles de données.» SimCLR et CLIP sont des algorithmes d’apprentissage machine qui peuvent être utilisés pour générer des images à partir d’invites de texte.

Share the Post: