Présentation de la vidéo-texte et de Pegasus-1 (80B)

Douze Labs, une entreprise de recherche et de production basée dans la baie de San Francisco, est en pointe de la compréhension multimodale des vidéos. Aujourd’hui, nous sommes ravis de dévoiler les capacités de génération de texte à partir de vidéos de Pegasus-1, notre dernier modèle de base de langage vidéo. Cela représente notre engagement à offrir une gamme complète d’API adaptées à différentes tâches de compréhension vidéo. Notre gamme s’étend de la recherche de moments vidéo en langage naturel à la classification, et maintenant, avec la dernière version, à la génération de texte à partir de vidéos en fonction de prompts. Les données vidéo sont intrigantes car elles contiennent plusieurs modalités dans un seul format. Nous pensons que la compréhension des vidéos nécessite une approche nouvelle et originale de la combinaison des subtilités de la perception visuelle et des nuances séquentielles et contextuelles de l’audio et du texte. Avec l’essor de modèles d’images et de langage capables, l’approche dominante pour la compréhension des vidéos a été de la reformuler en tant que problème de compréhension d’image ou de parole. Un cadre typique consisterait à extraire des images des vidéos et à les mettre en entrée dans un modèle vision-langage. Bien que cette approche puisse être viable pour les courtes vidéos (ce qui explique pourquoi la plupart des modèles vision-langage se concentrent sur des vidéoclips de moins de 1 minute), la plupart des vidéos du monde réel dépassent les 1 minute et peuvent facilement s’étendre sur des heures. L’utilisation d’une approche «image-first» classique sur de telles vidéos signifierait le traitement de dizaines de milliers d’images pour chaque vidéo, ce qui impliquerait la manipulation de nombreux embeddings texte-image qui captent à peine la sémantique des informations spatiotemporelles. Cela est impraticable dans de nombreuses applications en termes de performances, de latence et de coût. En outre, la méthodologie dominante néglige la nature multimodale des vidéos, où l’analyse conjointe des éléments visuels et auditifs, y compris la parole, est cruciale pour une compréhension complète de leur contenu.

Share the Post: