‘Meta présente Spirit LM, un modèle open source qui combine des entrées/sorties de texte et de parole’

Restez à jour avec les développements de l’IA en vous abonnant à nos bulletins quotidiens et hebdomadaires pour les nouvelles les plus récentes et le contenu exclusif sur les avancées de pointe en IA. Découvrez-en Plus Meta a opportunément lancé son premier modèle de langage multimodal open-source appelé Meta Spirit LM, à temps pour Halloween 2024. Ce modèle fusionne habilement les entrées et les sorties de texte et de parole, le plaçant en concurrence directe avec OpenAI’s GPT-4o, Hume’s EVI 2, et d’autres modèles multimodaux natifs, sans oublier les offres à entrée-sortie uniques comme ElevenLabs. L’équipe de recherche fondamentale sur l’IA de Meta (FAIR) a développé Spirit LM pour adresser et surpasser les limitations des expériences précédentes de voix IA. Il offre une génération de parole plus naturaliste et diversifiée, tout en apprenant simultanément de différentes modalités telles que la reconnaissance automatique de la parole (ASR), le texte-parole (TTS) et la classification de la parole. À ce stade, Meta Spirit LM n’est accessible que pour une utilisation non commerciale sous la licence de recherche non commerciale FAIR de Meta. Cette licence autorise les utilisateurs à utiliser, ajuster et créer des extensions des modèles Meta Spirit LM, bien que uniquement pour des objectifs non commerciaux. La distribution de toute modification ou des modèles eux-mêmes doit strictement être non commerciale également.

Share the Post: