Douze Labs, une entreprise de recherche et de développement de produits AI basée dans la baie de San Francisco, est à l’avant-garde de la compréhension multimodale de la vidéo. Aujourd’hui, nous sommes ravis de dévoiler les dernières capacités de génération de texte à partir de vidéos de Pegasus-1, notre dernier modèle de base de la vidéo-langue. Cela représente notre engagement à offrir une suite complète d’API adaptée aux différentes tâches de compréhension de la vidéo en aval. Notre suite s’étend de la recherche de moments vidéo basée sur la langue naturelle à la classification, et maintenant, avec la dernière version, à la génération de texte à partir de vidéos basée sur des prompts.
Les données vidéo sont intéressantes car elles contiennent plusieurs modalités dans un seul format. Nous pensons que la compréhension de la vidéo requiert une nouvelle approche de l’union des subtilités de la perception visuelle et des nuances séquentielles et contextuelles de l’audio et du texte. Avec l’essor de modèles d’images et de langage capables, l’approche dominante pour la compréhension de la vidéo a été de la reformuler en tant que problème de compréhension de l’image ou de l’audio. Un cadre typique impliquerait de prélever des images des vidéos et de les introduire dans un modèle visuel-langagier. Bien que cette approche puisse être viable pour les courtes vidéos (ce qui explique pourquoi la plupart des modèles visuel-langagiers se concentrent sur des clips vidéo de moins de 1 minute), la plupart des vidéos du monde réel dépassent les 1 minute et peuvent facilement s’étendre à des heures. L’utilisation d’une approche « image-first » standard sur de telles vidéos signifierait le traitement de dizaines de milliers d’images pour chaque vidéo, ce qui entraînerait la manipulation de vastes ensembles d’ébauches d’images-texte qui saisissent à peine les sémantiques de l’information spatio-temporelle, au mieux. Cela est impraticable dans de nombreuses applications en termes de performances, de latence et de coût. De plus, la méthodologie dominante néglige la nature multimodale des vidéos, où l’analyse conjointe des éléments visuels et auditifs, y compris la parole, est cruciale pour une compréhension complète de leur contenu.