« Ce que deux années de développement de l’IA peuvent nous apprendre sur Sora »

Souvenez-vous lorsque les générateurs d’art IA sont devenus largement disponibles en 2022 et soudain, internet était rempli d’images étranges qui étaient très cool mais ne semblaient pas tout à fait correctes à l’inspection ? Préparez-vous à ce que cela se reproduise — mais cette fois-ci pour les vidéos. La semaine dernière, OpenAI a sorti Sora, un modèle d’IA générative qui produit des vidéos basées sur une instruction simple. Il n’est pas encore disponible pour le grand public, mais le PDG Sam Altman a démontré ses capacités en prenant des demandes sur X, anciennement connu sous le nom de Twitter. Les utilisateurs ont répondu avec de courtes instructions : « un singe jouant aux échecs dans un parc », ou « une course de vélo sur l’océan avec différents animaux en tant qu’athlètes ». C’est étrange, hypnotisant, bizarre, magnifique — et suscite le cycle habituel de commentaires. Certains font des déclarations catégoriques sur les effets négatifs de Sora, prévoyant une « vague de désinformation » — mais bien que moi (et les experts) pensons que les futurs systèmes d’IA puissants posent des risques très sérieux, les affirmations qu’un modèle spécifique va déclencher une vague de désinformation ne se sont pas encore vérifiées. D’autres soulignent les nombreuses imperfections de Sora comme représentant des limites fondamentales de la technologie — ce qui était une erreur lorsque les gens le faisaient avec des modèles de génération d’images et qui, je le soupçonne, se reproduira encore. Comme l’a souligné ma collègue A.W. Ohlheiser, « tout comme DALL-E et ChatGPT se sont améliorés avec le temps, il en va de même pour Sora. » Les prédictions, qu’elles soient optimistes ou pessimistes, pourraient encore se réaliser — mais la conversation autour de Sora et de l’IA générative serait plus productive si les gens de tous bords prenaient en compte toutes les manières dont nous nous sommes trompés ces dernières années. Il y a deux ans, OpenAI a annoncé DALL-E 2, un modèle capable de produire des images fixes à partir d’une instruction textuelle. Les images fantastiques en haute résolution qu’il produisait étaient rapidement partout sur les réseaux sociaux, tout comme les interprétations sur ce qu’il fallait en penser : De l’art réel ? De l’art faux ? Une menace pour les artistes ? Un outil pour les artistes ? Une machine à désinformation ? Deux ans plus tard, il est bon de faire un peu de rétrospective si nous voulons que nos opinions sur Sora vieillissent mieux.

Share the Post: