Des vues falsifiées pour gagner : les modèles de conversion texte-image apprennent plus efficacement avec des données fabriquées

Les images synthétiques peuvent aider les modèles IA à apprendre des représentations visuelles plus précisément que les clichés réels, selon des chercheurs en informatique de l’université du Massachusetts (MIT) et de Google. Le résultat est des réseaux neuronaux qui sont mieux à même de créer des images à partir de vos descriptions écrites. Au cœur de tous les modèles de texte-à-image se trouve leur capacité à mapper des objets en mots. À partir d’une invite de texte en entrée – comme par exemple « un enfant tenant un ballon rouge sous le soleil » -, ils doivent retourner une image approximative de la description. Pour ce faire, ils doivent apprendre les représentations visuelles de ce qu’un enfant, un ballon rouge et un jour ensoleillé peuvent ressembler. L’équipe MIT-Google estime que les réseaux neuronaux peuvent générer des images plus précises à partir d’invites après avoir été formés à partir d’images créées par des IA, plutôt que des clichés réels. Pour démontrer cela, le groupe a développé StableRep, qui apprend comment transformer des légendes descriptives en images correctes correspondantes à partir d’images générées par le populaire modèle de texte-à-image Stable Diffusion. Autrement dit : en utilisant un modèle IA établi et formé pour enseigner à d’autres modèles. Comme le précisent les scientifiques dans leur article pré-impression, publié via arXiv à la fin du mois dernier, « avec uniquement des images synthétiques, les représentations apprises par StableRep surpassent les performances des représentations apprises par SimCLR et CLIP en utilisant le même ensemble de prompts de texte et d’images réelles correspondantes, sur de larges ensembles de données ». SimCLR et CLIP sont des algorithmes d’apprentissage machine qui peuvent être utilisés pour créer des images à partir d’invites de texte.

Share the Post: