OpenAI a publié sa carte système du modèle GPT-4o, un document de recherche qui décrit les mesures de sécurité et les évaluations des risques réalisées par la startup avant de lancer son dernier modèle.
GPT-4o a été lancé publiquement en mai de cette année. Avant ses débuts, OpenAI a fait appel à un groupe externe de « red teamers », ou experts en sécurité cherchant à trouver des failles dans un système, pour identifier les risques clés du modèle (ce qui est une pratique assez courante). Ils ont examiné des risques tels que la possibilité que GPT-4o crée des clones non autorisés de la voix de quelqu’un, du contenu érotique et violent, ou des fragments d’audio reproduit protégé par le droit d’auteur. Maintenant, les résultats sont publiés.
Selon le cadre propre à OpenAI, les chercheurs ont estimé que GPT-4o présentait un risque « moyen ». Le niveau de risque global a été déterminé à partir de la note de risque la plus élevée parmi quatre catégories générales : la cybersécurité, les menaces biologiques, la persuasion et l’autonomie du modèle. Toutes ces catégories ont été considérées comme présentant un faible risque, sauf la persuasion, où les chercheurs ont constaté que certaines échantillons d’écriture de GPT-4o pouvaient être plus doués pour influencer l’opinion des lecteurs que du texte écrit par des humains – bien que dans l’ensemble, les échantillons du modèle ne soient pas plus persuasifs.
Une porte-parole d’OpenAI, Lindsay McCallum Rémy, a déclaré à The Verge que la carte système comprend des évaluations de préparation réalisées par une équipe interne, ainsi que des testeurs externes répertoriés sur le site web d’OpenAI, tels que Model Evaluation and Threat Research (METR) et Apollo Research, qui réalisent des évaluations pour les systèmes d’IA.
Ce n’est pas la première carte système que OpenAI publie ; les modèles GPT-4, GPT-4 avec vision et DALL-E 3 ont également été testés de manière similaire et les résultats ont été publiés. Mais OpenAI publie cette carte système à un moment décisif. La société fait face à une critique incessante de ses normes de sécurité, tant de la part de ses propres employés que de sénateurs d’État. Quelques minutes seulement avant la publication de la carte système de GPT-4o, The Verge a rapporté exclusivement une lettre ouverte de la sénatrice Elizabeth Warren (D-MA) et de la représentante Lori Trahan (D-MA), qui demandent des réponses sur la façon dont OpenAI gère les lanceurs d’alerte et les examens de sécurité. Cette lettre souligne les nombreux problèmes de sécurité qui ont été publiquement dénoncés, notamment l’exclusion temporaire du PDG Sam Altman de l’entreprise en 2023 en raison des préoccupations du conseil d’administration et le départ d’un responsable de la sécurité qui a affirmé que la « culture et les processus de sécurité ont été relégués au second plan au profit de produits attrayants ».
De plus, la société publie un modèle multimodal très performant juste avant une élection présidentielle aux États-Unis. Il existe un risque potentiel clair que le modèle diffuse accidentellement des informations erronées ou soit détourné par des acteurs malveillants – même si OpenAI espère mettre en évidence que l’entreprise teste des scénarios réels pour prévenir les abus.
De nombreuses voix se sont élevées pour demander à OpenAI d’être plus transparente, non seulement en ce qui concerne les données d’entraînement du modèle (est-il entraîné sur YouTube ?), mais aussi en ce qui concerne les tests de sécurité. En Californie, où se trouvent OpenAI et de nombreux autres grands laboratoires d’IA, le sénateur d’État Scott Wiener s’efforce de faire adopter une loi visant à réglementer les grands modèles linguistiques, y compris des restrictions imposant aux entreprises une responsabilité juridique en cas d’utilisation abusive de leur IA. Si ce projet de loi est adopté, les modèles de pointe d’OpenAI devront se conformer à des évaluations de risques imposées par l’État avant d’être disponibles pour une utilisation publique. Mais le principal enseignement de la carte système de GPT-4o est que, malgré le groupe externe de « red teamers » et les testeurs, une grande partie de cette évaluation repose sur OpenAI elle-même.