« Voici tout ce que nous savons concernant Sora, le modèle AI texte-vidéo d’OpenAI. »

La start-up OpenAI de San Francisco a dévoilé un générateur de vidéos basé sur l’IA qui crée des vidéos ressemblant à de véritables productions hollywoodiennes. Elle a publié plusieurs démonstrations ou courtes vidéos pour montrer ce que Sora peut faire, y compris des clips stupéfiants de mammouths laineux très réalistes marchant dans la neige et une scène d’une rue de Tokyo capturée comme si une caméra survolait la ville. OpenAI, la compagnie derrière le chatbot ChatGPT et le générateur d’images basé sur l’IA nommé DALL-E, baptise son nouveau système Sora d’après le mot japonais pour ciel. Elle ne rend pas encore disponible Sora au public car elle travaille avec un petit groupe d’universitaires et de chercheurs pour comprendre toutes ses implications en premier lieu. Elle a annoncé le modèle en février 2024 pour donner un aperçu de ce qui va venir – afin que les gens puissent voir les capacités, et pour qu’OpenAI puisse recueillir des retours. Sora est un modèle de génération de vidéos basé sur l’IA développé par OpenAI qui peut créer des vidéos réalistes (jusqu’à 60 secondes de longueur) à partir de texte. Il est alimenté par des techniques avancées d’apprentissage automatique, en particulier un type d’IA générative connu sous le nom de modèle de diffusion, qui « génère une vidéo en commençant par une ressemblant à du bruit statique et la transforme progressivement en supprimant le bruit sur de nombreuses étapes, » selon OpenAI. Il est capable de générer des scènes complexes avec plusieurs personnages, mouvements et arrière-plans détaillés, le tout basé sur vos instructions. L’une des capacités uniques de Sora est qu’il peut également générer des vidéos basées sur des images fixes, animant le contenu de l’image avec une attention aux détails et en restant réaliste. Sora utilise à la fois des vidéos publiquement disponibles et du contenu sous licence des détenteurs des droits d’auteur. Pocket-lint n’a pas encore testé l’efficacité de Sora, mais OpenAI a déclaré qu’il a démontré des capacités impressionnantes en générant des vidéos réalistes et détaillées. Comme tout modèle basé sur l’IA, il est probable qu’il produise parfois des vidéos avec des inexactitudes ou des éléments inattendus, en particulier dans des scènes complexes. OpenAI n’a pas précisé combien de vidéos ont été utilisées pour former le système jusqu’à présent. Elle n’a pas non plus précisé si Sora prend en charge plusieurs langues. OpenAI n’a pas indiqué de date de sortie exacte. Sora est actuellement entre les mains de testeurs sélectionnés (également connus sous le nom de « red teamers ») pour identifier les risques potentiels et s’assurer qu’il est sûr avant d’être disponible plus largement. OpenAI a informé le New York Times qu’elle partage la technologie avec un petit groupe d’universitaires et d’autres chercheurs extérieurs qui chercheront des façons de la détourner. OpenAI n’a pas encore annoncé de tarification pour Sora. Le modèle pourrait suivre une approche similaire à celle d’autres produits OpenAI, offrant une utilisation gratuite limitée et un abonnement payant pour une utilisation plus étendue. Il pourrait même être inclus dans un abonnement ChatGPT Plus, qui coûte actuellement 20 $ par mois et offre un accès à GPT-4 et à la génération d’images DALL-E 3. Actuellement, Sora n’est pas accessible via ChatGPT, l’outil d’IA génératif d’OpenAI qui permet aux gens de générer du texte, de l’art, du code et plus encore avec des simples instructions. Il a été lancé fin 2022 et compte plus de 180 millions d’utilisateurs mensuels, en février 2024. Toute future intégration avec ChatGPT sera annoncée par OpenAI. Oui, les vidéos générées par Sora sont marquées d’un filigrane pour indiquer qu’elles ont été créées par une IA. Cela fait partie des efforts d’OpenAI pour garantir la transparence et aider à distinguer le contenu généré par l’IA des véritables images. Plus tôt ce mois-ci, OpenAI a annoncé qu’elle ajoutait des filigranes à son outil de texte-en-image DALL-E 3, mais a reconnu qu’ils peuvent être « facilement supprimés. » Sora semble incroyablement avancé, mais le rythme de l’innovation dans la génération de vidéos par l’IA a été incroyable récemment. Runway et Pika ont lancé leurs impressionnants modèles de texte-en-vidéo, devenant rapidement des acteurs clés dans ce domaine. Lumiere de Google est également un acteur majeur – faisant directement concurrence à Sora d’OpenAI, permettant aux utilisateurs de transformer du texte et des images fixes en vidéos.

Share the Post: