« Traitement de l’inférence en périphérie »

Annonce sponsorisée Toute organisation accédant à des modèles d’IA hébergés dans le cloud sait à quel point il peut être difficile de s’assurer que les grands volumes de données nécessaires pour construire et entraîner ce type de charges de travail peuvent être rapidement consultés et ingérés pour éviter tout retard potentiel de performance. Les chatbots et les assistants virtuels, la génération de cartes, les outils d’IA pour les ingénieurs logiciels, l’analyse des défauts et les applications d’IA générative – ce ne sont là que quelques-uns des cas d’utilisation qui peuvent bénéficier de performances en temps réel pour éliminer ces retards. Et le service Gcore Inference Edge est conçu pour offrir aux entreprises de divers secteurs, notamment l’informatique, la vente au détail, les jeux et la fabrication, exactement cela. La latence est un problème qui tend à être exacerbé lorsque la collecte et le traitement de jeux de données distribués sur plusieurs sources géographiques via le réseau sont impliqués. Cela peut poser des problèmes particuliers lors du déploiement et de l’extension d’applications d’IA en temps réel dans les villes intelligentes, la traduction TV et les véhicules autonomes. Sortir ces charges de travail d’un centre de données centralisé et les héberger au bord du réseau, plus proche de l’endroit où les données résident réellement, est une solution possible. C’est précisément ce que la solution Gcore Inference at the Edge est conçue pour faire. Elle distribue les modèles d’apprentissage machine pré-entraînés ou personnalisés des clients (y compris des modèles open source tels que Mistral 7B, Stable-Diffusion XL et LLaMA Pro 8B par exemple) vers des ‘nœuds d’inférence au bord’ situés dans plus de 180 emplacements sur le réseau de diffusion de contenu (CDN) de l’entreprise. Ces nœuds reposent sur des serveurs équipés de GPU NVIDIA L40S conçus pour exécuter des charges de travail d’inférence d’IA, interconnectés par un mécanisme de routage intelligent à faible latence de Gcore pour minimiser les retards de paquets et mieux prendre en charge les applications en temps réel. Des options pour des serveurs de nœuds au bord basés sur les processeurs Ampere® Altra® Max sont prévues pour une date ultérieure.

Share the Post: