Des vues fausses pour gagner : les modèles de texte-image apprennent plus efficacement avec des données inventées

Des images synthétiques peuvent aider les modèles IA à apprendre des représentations visuelles plus précisément par rapport aux photographies réelles, selon des informaticiens du MIT et de Google. Le résultat est que les réseaux neuronaux sont mieux à même de produire des images à partir de vos descriptions écrites. Au cœur de tous les modèles de texte-en-image se trouve leur capacité à mapper des objets en mots. À partir d’une invite de texte d’entrée – comme «un enfant tenant un ballon rouge sous le soleil», par exemple – ils doivent retourner une image approchant la description. Pour ce faire, ils doivent apprendre les représentations visuelles de ce qu’un enfant, un ballon rouge et un jour ensoleillé peuvent ressembler. L’équipe du MIT-Google pense que les réseaux neuronaux peuvent générer des images plus précises à partir d’invitations après avoir été formés à partir d’images générées par des IA plutôt que des photographies réelles. Pour démontrer cela, ils ont développé StableRep, qui apprend comment transformer des légendes descriptives en images correctes correspondantes à partir d’images générées par le populaire modèle de texte-en-image Stable Diffusion. En d’autres termes : en utilisant un modèle d’IA établi et formé pour enseigner aux autres modèles. Comme le précisent les scientifiques dans leur article pré-impression publié sur arXiv à la fin du mois dernier : «Avec des images uniquement synthétiques, les représentations apprises par StableRep surpassent les performances des représentations apprises par SimCLR et CLIP à partir du même ensemble d’invitations de texte et d’images réelles correspondantes, sur des jeux de données de grande taille.» SimCLR et CLIP sont des algorithmes d’apprentissage machine qui peuvent être utilisés pour générer des images à partir d’invitations de texte.

Share the Post: