En avril 2022, lorsque Dall-E, un modèle visio-linguistique de conversion texte-vers-image, a été publié, il aurait attiré plus d’un million d’utilisateurs au cours des trois premiers mois. Cela a été suivi de ChatGPT, en janvier 2023, qui aurait atteint 100 millions d’utilisateurs actifs mensuels seulement deux mois après son lancement. Les deux marquent des moments notables dans le développement de l’IA générative, ce qui a entraîné une explosion de contenu généré par l’IA sur le web. La mauvaise nouvelle est que, en 2024, cela signifie que nous verrons également une explosion d’informations fabriquées et sans fondement, de désinformation et de renforcement des stéréotypes sociaux négatifs encodés dans ces modèles d’IA. La révolution de l’IA n’a pas été provoquée par une avancée théorique récente – en effet, la plupart des travaux fondamentaux sous-jacents aux réseaux neuronaux artificiels existent depuis des décennies – mais par la « disponibilité » de vastes ensembles de données. Idéalement, un modèle d’IA capture un phénomène donné, qu’il s’agisse du langage humain, de la cognition ou du monde visuel, de manière aussi proche que possible du phénomène réel. Cette histoire provient du rapport annuel des tendances de WIRED World en 2024. Lisez d’autres histoires de la série ici – ou téléchargez une copie du magazine. Par exemple, pour qu’un modèle linguistique de grande taille (LLM) génère un texte semblable à celui d’un humain, il est important que le modèle soit nourri de volumes énormes de données qui représentent d’une certaine manière le langage, l’interaction et la communication humaine. On croit que plus l’ensemble de données est grand, mieux il capture les affaires humaines, avec toute leur beauté inhérente, leur laideur et même leur cruauté. Nous sommes dans une ère marquée par une obsession pour l’échelle des modèles, des ensembles de données et des GPU. Les LLM actuels, par exemple, sont maintenant entrés dans une ère de modèles d’apprentissage automatique avec des milliers de milliards de paramètres, ce qui signifie qu’ils nécessitent des ensembles de données de milliards d’éléments. Où pouvons-nous les trouver ? Sur le web. On suppose que ces données provenant du web capturent la « vérité fondamentale » de la communication humaine et de l’interaction, un proxy à partir duquel le langage peut être modélisé. Bien que divers chercheurs aient maintenant montré que les ensembles de données en ligne sont souvent de mauvaise qualité, ont tendance à renforcer les stéréotypes négatifs et contiennent du contenu problématique tel que des insultes raciales et des discours haineux, souvent dirigés vers des groupes marginalisés, cela n’a pas empêché les grandes entreprises d’IA d’utiliser de telles données dans la course à l’échelle.
‘Adolescent en série engagé pour harceler arrêté, plaide coupable, pourrait faire face à 20 ans’
‘Un adolescent des États-Unis a avoué avoir incité plus de 375 fausses menaces dirigées contre les forces de l’ordre, un