EVI 3 de Hume AI : la voix IA la plus réaliste et personnalisable à ce jour

Last updated on septembre 6th, 2025 at 01:28 pm

Résumé en 30 secondes

  • EVI 3 est le 3ᵉ modèle parole‑langage (speech‑language) de Hume AI : il unifie transcription, raisonnement et synthèse vocale, ce qui améliore la fluidité, l’empathie et la vitesse des conversations.
  • Depuis le 17 juillet 2025, l’API EVI 3 est disponible avec clonage vocal hyperréaliste (à partir d’un court échantillon) et intégrations LLM (Claude 4, Gemini 2.5, Kimi K2, etc.).
  • EVI 3 vise une latence “conversationnelle” (~300 ms) et a surclassé GPT‑4o dans des tests internes sur l’empathie, la naturalité, la vitesse et la qualité audio.
  • Les versions EVI 1/2 seront retirées le 30 août 2025 : pensez à migrer.

Qu’est‑ce qu’EVI 3 ?

EVI 3 est un modèle parole‑langage (SLM) : la même intelligence gère la reconnaissance vocale, la génération de langage et la voix de réponse. Résultat : des échanges plus naturels, une prosodie expressive, une meilleure compréhension des intentions, et la capacité de « penser vite et lentement » en parlant (coordination avec des moteurs de recherche ou de raisonnement en parallèle).

Pourquoi c’est important

Contrairement aux architectures séparant LLM et TTS, EVI 3 réduit la latence et augmente la qualité en mutualisant le traitement du texte et de la voix. Pour Hume AI, c’est la brique d’interface qui doit dialoguer avec des agents et des workers plus lents, tout en restant réactive et empathique.


Ce qui change par rapport à EVI 2

  • Voix “illimitées” par simple prompt : EVI 3 peut parler de façon expressive avec n’importe quelle voix, réelle ou conçue, sans fine‑tuning individuel.
  • Clonage vocal hyperréaliste : création d’une voix fidèle (timbre, accent, rythme, “personnalité”) à partir d’un court extrait audio ; Hume a ajouté ce clonage avec le lancement API de juillet.
  • Latence : objectif < 300 ms sur matériel de pointe, avec des mesures comparatives favorables face à d’autres solutions temps réel.
  • Interopérabilité LLM : possibilité d’orchestrer Claude 4, Gemini 2.5, Kimi K2 (et vos modèles ou RAG) ; EVI 3 fusionne leurs sorties quand elles arrivent.
  • Évaluations : dans des comparaisons en aveugle, les participants ont préféré EVI 3 à GPT‑4o sur l’empathie, l’expressivité, la naturalité, la gestion d’interruptions, la vitesse et l’audio.

Disponibilité, prix et feuille de route

EVI 3 est accessible via démonstration web et application iOS, et via API depuis le 17 juillet 2025. Hume annonce un modèle tarifaire à la minute, avec des prix très bas et des remises pour forts volumes (dès quelques centimes par minute, < 0,02 $/min à très grande échelle).

Attention migration : Hume met fin à EVI 1 et 2 le 30 août 2025. Des guides explicitent les changements (voix obligatoires, nouveaux messages de prosodie, etc.).


Langues et couverture

EVI 3 prend déjà en charge l’anglais et l’espagnol, avec d’autres langues à venir. Hume indique également travailler activement la proficience en français, allemand, italien et espagnol dans la phase d’entraînement continu.


Cas d’usage concrets (B2B & formation)

  • Service client & centres d’appels : agents vocaux capables d’adapter le ton et la politesse selon la prosodie et l’émotion du client.
  • Formation & coaching : tuteurs vocaux personnalisés (voix, style pédagogique) pour accompagner un apprenant avec empathie et relances naturelles.
  • Accessibilité : assistance voix à voix pour publics fragiles, seniors ou personnes en situation de handicap, avec intonations rassurantes.
  • Jeux/VR & narration : PNJ et narrateurs expressifs, voix clonées d’acteurs (avec consentement) et styles (« pirate », « sultry », « whisper », etc.).

Comment ça marche côté intégration ? (vue d’architecte)

  • Session temps réel par WebSocket : flux audio entrant et flux audio sortant en continu. Messages structurés (user_message, assistant_message, audio_output, assistant_end).
  • SDK & démarrage rapide : React, TypeScript et Python avec exemples officiels (auth par clé/API token).
  • Conception/gestion des voix : bibliothèque de voix, voice design par description, voice cloning (enregistrement ou fichier), et gestion via API.
  • Breaking changes EVI 3 : choix de voix obligatoire, prosodie de l’assistant envoyée dans un message dédié (assistant_prosody).

Éthique, consentement et garde‑fous

Le clonage vocal soulève des enjeux sérieux (usurpation, deepfakes). Hume dit analyser les conversations pour détecter des signaux d’abus, faire respecter des lignes directrices éthiques (Hume Initiative) et couper l’accès en cas de violation. Le clonage démontré récemment repose sur ~30 s d’audio et s’accompagne d’un discours public sur la nécessité de normes sectorielles.


Notre avis (Netz Informatique)

Pour les entreprises et organismes de formation, EVI 3 réduit le “mur de latence” des assistants vocaux, augmente l’adhésion des utilisateurs grâce à l’empathie, et accélère le time‑to‑value (voix sur mesure par prompt, clonage encadré). Nous recommandons :

  1. un POC sur un parcours unique (ex. hotline interne, module e‑learning),
  2. la définition des chartes (consentement vocal, mentions légales, stockage),
  3. une architecture hybride (EVI 3 en interface, LLM de votre choix en raisonnement),
  4. la migration d’EVI 2 → EVI 3 avant le 30 août 2025.

FAQ rapide

EVI 3 peut‑il cloner n’importe quelle voix ?
Oui, le clonage est disponible via la plateforme ; Hume met en avant des garde‑fous, l’exigence de consentement et des contrôles d’usage.

Puis‑je utiliser mon propre LLM (ou Claude/Gemini) avec EVI 3 ?
Oui. EVI 3 orchestrera une première réponse rapide, puis fusionnera celle d’un LLM externe dès qu’elle est prête.

Quelles langues sont supportées aujourd’hui ?
Anglais et espagnol, avec extension prévue à d’autres langues (dont le français).

À quel prix ?
Tarification à la minute, très basse à l’échelle (remises < 0,02 $/min pour très gros volumes). Contact commercial recommandé pour les déploiements massifs.

Share the Post: