Présentation de la vidéo-texte et de Pegasus-1 (80B)

Douze Labs, une entreprise de recherche et de production basée dans la baie de San Francisco, est en pointe de la compréhension multimodale des vidéos. Aujourd’hui, nous sommes ravis de dévoiler les capacités de génération de texte à partir de vidéos de Pegasus-1, notre dernier modèle de base de langage vidéo. Cela représente notre engagement à offrir une gamme complète d’API adaptées à différentes tâches de compréhension vidéo. Notre gamme s’étend de la recherche de moments vidéo en langage naturel à la classification, et maintenant, avec la dernière version, à la génération de texte à partir de vidéos en fonction de prompts. Les données vidéo sont intrigantes car elles contiennent plusieurs modalités dans un seul format. Nous pensons que la compréhension des vidéos nécessite une approche nouvelle et originale de la combinaison des subtilités de la perception visuelle et des nuances séquentielles et contextuelles de l’audio et du texte. Avec l’essor de modèles d’images et de langage capables, l’approche dominante pour la compréhension des vidéos a été de la reformuler en tant que problème de compréhension d’image ou de parole. Un cadre typique consisterait à extraire des images des vidéos et à les mettre en entrée dans un modèle vision-langage. Bien que cette approche puisse être viable pour les courtes vidéos (ce qui explique pourquoi la plupart des modèles vision-langage se concentrent sur des vidéoclips de moins de 1 minute), la plupart des vidéos du monde réel dépassent les 1 minute et peuvent facilement s’étendre sur des heures. L’utilisation d’une approche «image-first» classique sur de telles vidéos signifierait le traitement de dizaines de milliers d’images pour chaque vidéo, ce qui impliquerait la manipulation de nombreux embeddings texte-image qui captent à peine la sémantique des informations spatiotemporelles. Cela est impraticable dans de nombreuses applications en termes de performances, de latence et de coût. En outre, la méthodologie dominante néglige la nature multimodale des vidéos, où l’analyse conjointe des éléments visuels et auditifs, y compris la parole, est cruciale pour une compréhension complète de leur contenu.

Share the Post:

Alerte Cybersécurité : Le Malware TamperedChef se Propage via de Faux Installateurs

Une nouvelle campagne de cyberattaque mondiale a été détectée, utilisant un malware sophistiqué nommé TamperedChef (ou BaoLoader) qui se propage

La Révolution des Agents IA : OpenAI Défie Google avec le Navigateur Atlas et Microsoft Ressuscite Clippy

Cette semaine, la course à l’intelligence artificielle a franchi un nouveau cap. Nous ne parlons plus seulement de chatbots intelligents,

ROI de 1 440 % : Les leçons marketing de cette PME qui a parié sur l’IA avant tout le monde

Introduction Pour Jean Dupont, fondateur de NETZ Informatique, tout allait bien. Vingt ans d’activité, une clientèle fidèle… jusqu’à ce qu’il

Veo 3.1 de Google DeepMind : La Révolution de la Création Vidéo par IA est en Marche

Le 15 octobre 2025, Google DeepMind a de nouveau secoué l’écosystème de l’intelligence artificielle en dévoilant Veo 3.1, une mise

Les dernières avancées en IA : ce que les entreprises doivent savoir

L’intelligence artificielle (IA) évolue à un rythme sans précédent, transformant les industries et créant de nouvelles opportunités pour les entreprises

L’IA en 2025 : Votre Entreprise est-elle Prête pour le Passage de l’Application à l’Agent ?

Date : 14 octobre 2025 Auteur : L’équipe Netzinformatique Ces dernières 48 heures, le monde de l’intelligence artificielle a été

Tech Hebdo : L’IA Redessine l’Écosystème Technologique Européen (Semaine du 5-12 Octobre 2025)

La semaine écoulée a marqué un tournant décisif dans la course à l’intelligence artificielle, avec des répercussions profondes pour les

Gemini Enterprise : Google Déclare la Guerre des Plateformes d’IA pour l’Entreprise

La bataille pour la suprématie de l’intelligence artificielle en entreprise vient de franchir un nouveau cap. Le 9 octobre 2025,