Le mercredi, le développeur de Replicate Charlie Holtz a combiné la vision GPT-4 (communément appelée GPT-4V) et la technologie de clonage vocal ElevenLabs pour créer une version non autorisée de l’AI du célèbre naturaliste David Attenborough qui narrait les mouvements de Holtz à la caméra. Jeudi après-midi, le message X décrivant le canular avait recueilli plus de 21 000 mentions J’aime. « Voici un remarquable spécimen d’Homo sapiens distingué par ses lunettes rondes argentées et une crinière bouclée en bataille », dit le faux Attenborough dans la démo alors que Holtz le regarde avec un sourire. « Il porte ce qui semble être un tissu bleu, ce qui ne peut être qu’une partie de son affichage de reproduction. » « Regardez de près l’arche subtile de son sourcil », poursuit-il, comme s’il narrait un documentaire de la BBC sur la faune. « C’est comme s’il était en plein milieu d’un rituel complexe de curiosité ou de scepticisme. L’arrière-plan suggère un habitat abrité, peut-être une aire de nourrissage ou un abreuvoir communautaire. » Comment ça marche ? Toutes les cinq secondes, un script Python nommé « narrateur » prend une photo de la webcam de Holtz et la transmet à GPT-4V – la version du modèle de langage OpenAI capable de traiter les entrées d’images – via une API, qui possède une invite spéciale pour qu’il génère du texte dans le style des narrations d’Attenborough. Ensuite, il transmet ce texte à un profil vocal AI ElevenLabs entraîné sur des échantillons audio de la parole d’Attenborough. Holtz a fourni le code (nommé « narrateur ») qui assemble le tout sur GitHub, et il nécessite des jetons d’API pour OpenAI et ElevenLabs qui coûtent de l’argent à exécuter. Bien que certaines de ces fonctionnalités soient disponibles séparément depuis un certain temps, les développeurs ont récemment commencé à expérimenter leur combinaison grâce à la disponibilité des API, ce qui peut créer des démonstrations surprenantes comme celle-ci.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du