« Traitement de l’inférence en périphérie »

Publication sponsorisée Toute organisation accédant à des modèles d’IA hébergés dans le cloud sait combien il peut être difficile de garantir que les grands volumes de données nécessaires pour construire et entraîner ce type de charges de travail puissent être rapidement accessibles et ingérés pour éviter tout retard potentiel de performance. Les chatbots et assistants virtuels, la génération de cartes, les outils d’IA pour les ingénieurs logiciels, les analyses, la détection d’anomalies et les applications génératives d’IA – ce ne sont là que quelques-uns des cas d’utilisation qui peuvent bénéficier de performances en temps réel pour éliminer ces retards. Et le service Gcore Inference at the Edge est conçu pour offrir exactement cela aux entreprises de divers secteurs, y compris IT, commerce de détail, jeux et fabrication. La latence est un problème qui tend à être exacerbé lorsque la collecte et le traitement de jeux de données distribués à travers de multiples sources géographiques via le réseau sont impliqués. Cela peut être particulièrement problématique lors du déploiement et du dimensionnement d’applications d’IA en temps réel dans les villes intelligentes, la traduction TV et les véhicules autonomes. Sortir ces charges de travail d’un centre de données centralisé et les héberger au bord du réseau, plus proche de l’endroit où les données se trouvent réellement, est une solution au problème. C’est précisément ce que la solution Gcore Inference at the Edge est conçue pour faire. Elle distribue les modèles d’apprentissage automatique pré-entraînés ou personnalisés des clients (y compris des modèles open source tels que Mistral 7B, Stable-Diffusion XL et LLaMA Pro 8B par exemple) vers des « nœuds d’inférence en bordure » situés dans plus de 180 emplacements sur le réseau de diffusion de contenu (CDN) de l’entreprise. Ces nœuds sont construits sur des serveurs équipés de GPU NVIDIA L40S conçus pour exécuter des charges de travail d’inférence en IA, interconnectés par un mécanisme de routage intelligent à faible latence de Gcore pour minimiser les retards de paquets et mieux soutenir les applications en temps réel. Des options pour des serveurs de nœuds en bordure construits sur des processeurs Ampere® Altra® Max sont prévues pour une date ultérieure.

Share the Post: