Suite d’IA la plus récente de Meta rend la traduction de la parole plus fluide et expressive.

En août dernier, Meta a dévoilé son modèle de traduction automatique multimodal SeamlessM4T, qui prend en charge près de 100 langues pour le texte et 36 pour la parole. Avec une architecture «v2» mise à jour, le géant des technologies étend maintenant cet outil pour rendre les traductions conversationnelles plus spontanées et expressives – ce qui manquait jusqu’à présent à une conversation authentique entre plusieurs langues. La première des deux nouvelles fonctionnalités est «SeamlessExpressive», qui, comme vous pouvez le deviner d’après son nom, porte vos expressions dans votre parole traduite. Ces expressions incluent votre ton, votre volume, votre ton émotionnel (excitation, tristesse ou murmure), votre vitesse de parole et vos pauses. Compte tenu du fait que les discours traduits avaient toujours sounded roboti jusqu’à présent, cette percée est potentiellement un changement de jeu – à la fois dans nos vies quotidiennes et dans la production de contenu. Les langues prises en charge incluent l’anglais, l’espagnol, l’allemand, le français, l’italien et le chinois, bien que la page de démonstration manque d’italien et de chinois au moment de la rédaction de cet article. La seconde fonctionnalité est «SeamlessStreaming», qui commence à traduire un discours alors que le locuteur est toujours en train de parler, ce qui permet aux autres d’entendre une traduction plus rapidement. Il y a toujours un léger délai d’environ deux secondes, mais au moins vous n’aurez pas à attendre que quelqu’un ait fini une phrase. Selon Meta, le défi ici est que différentes langues ont des structures de phrases différentes, il a donc dû développer un algorithme dédié à l’étude de l’entrée audio partielle, afin de décider s’il y a suffisamment de contexte pour commencer à générer une sortie traduite, ou s’il faut continuer à écouter. Le dernier développement de Meta sur cet ensemble «Communication fluide» semble impressionnant – plus que les outils de traduction vocale mobiles proposés par des sociétés telles que Google et Samsung. Il n’y a aucun mot sur le moment où le grand public pourra utiliser ces nouvelles fonctionnalités, mais je peux déjà imaginer Meta les intégrer dans ses lunettes intelligentes un jour, ce qui les rendra encore plus pratiques que jamais.

Share the Post: