L’intelligence artificielle générative est en plein essor, bien que les développeurs se heurtent rapidement à des obstacles, des exigences énergétiques élevées du calcul de l’IA à l’infrastructure complexe requise pour former les systèmes. Pour ce dernier, les données revêtent une importance capitale. Les stocks de données claires et de qualité sont essentiels pour les entreprises souhaitant former et construire leurs propres modèles d’IA. Mettre en ordre les ensembles de données est une partie essentielle du processus de développement précoce. Une théorie novatrice pour rendre ce processus plus facile est la pré-formation renforcée par reformulation web (WRAP), une technique proposée par des chercheurs d’Apple et de l’Université Carnegie Mellon dans un article publié plus tôt cette année. Les chercheurs ont noté que de nombreux grands modèles de langage (LLM) sont formés sur des données extraites du web souvent « non structurées, bruyantes et mal formulées », rendant ainsi leur utilisation plus compliquée pour l’entraînement. Alors que les données synthétiques peuvent être utilisées pour contourner ce problème, elles peuvent être sujettes à des biais. Bien que la pratique alternative de la curation des données pour éliminer les données de moindre qualité puisse être efficace, les chercheurs ont présenté leur propre solution.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du