Les chercheurs ont classé les modèles d’IA en fonction du risque – et ont trouvé une grande variété.

Bo Li, professeur associé à l’Université de Chicago spécialisé dans les tests de stress et la provocation des modèles d’IA pour découvrir les comportements inappropriés, est devenu une référence incontournable pour certaines firmes de conseil. Ces cabinets de conseil sont désormais souvent moins préoccupés par l’intelligence des modèles d’IA que par les problématiques qu’ils peuvent poser – légalement, éthiquement et en termes de conformité réglementaire. Li et ses collègues de plusieurs autres universités, ainsi que Virtue AI, cofondée par Li, et Lapis Labs, ont récemment développé une taxonomie des risques liés à l’IA ainsi qu’un benchmark révélant comment différents grands modèles de langage enfreignent les règles. « Nous avons besoin de principes pour la sécurité de l’IA, en termes de conformité réglementaire et d’utilisation ordinaire », déclare Li à WIRED. Les chercheurs ont analysé les réglementations et les directives gouvernementales en matière d’IA, y compris celles des États-Unis, de la Chine et de l’Union européenne, et ont étudié les politiques d’utilisation de 16 grandes entreprises d’IA du monde entier. Les chercheurs ont également mis au point AIR-Bench 2024, un benchmark utilisant des milliers de sollicitations pour évaluer comment les modèles d’IA populaires se comportent en termes de risques spécifiques. Par exemple, il montre que Claude 3 Opus d’Anthropic est très performant en ce qui concerne le refus de générer des menaces de cybersécurité, tandis que Gemini 1.5 Pro de Google est très performant pour éviter de générer de la nudité sexuelle non consentie. En revanche, DBRX Instruct, un modèle développé par Databricks, a obtenu les moins bons résultats dans l’ensemble. Lorsque l’entreprise a lancé son modèle en mars, elle a déclaré qu’elle continuerait à améliorer les fonctionnalités de sécurité de DBRX Instruct.

Share the Post: