« Traitement de l’inférence en périphérie »

Article sponsorisé Toute organisation ayant accès à des modèles d’IA hébergés dans le cloud sait à quel point il peut être difficile de s’assurer que les grands volumes de données nécessaires pour construire et entraîner ce type de charges de travail peuvent être rapidement accessibles et ingérés afin d’éviter tout retard potentiel de performance. Les chatbots et assistants virtuels, la génération de cartes, les outils d’IA pour les ingénieurs logiciels, l’analyse, la détection de défauts et les applications d’IA générative – ce ne sont là que quelques-uns des cas d’utilisation qui peuvent bénéficier de performances en temps réel et aider à éliminer ces retards. Et le service Gcore Inference at the Edge est conçu pour offrir aux entreprises de divers secteurs, y compris l’informatique, la vente au détail, les jeux et la fabrication, exactement cela. La latence est un problème qui a tendance à s’aggraver lorsque la collecte et le traitement de jeux de données répartis sur plusieurs sources géographiques via le réseau sont impliqués. Cela peut être particulièrement problématique lors du déploiement et de la mise à l’échelle d’applications d’IA en temps réel dans des villes intelligentes, la traduction télévisée et les véhicules autonomes. Sortir ces charges de travail d’un centre de données centralisé et les héberger au bord du réseau, plus près de l’endroit où les données résident réellement, est une solution au problème. C’est précisément ce que la solution Gcore Inference at the Edge est conçue pour faire. Elle distribue les modèles d’apprentissage automatique pré-entraînés ou personnalisés des clients (y compris des modèles open source Mistral 7B, Stable-Diffusion XL et LLaMA Pro 8B par exemple) vers des « nœuds d’inférence au bord » situés dans plus de 180 endroits sur le réseau de diffusion de contenu (CDN) de l’entreprise. Ces nœuds sont construits sur des serveurs équipés de GPU NVIDIA A40S conçus pour exécuter des charges de travail d’inférence en IA, interconnectés par le mécanisme de routage intelligent à faible latence de Gcore pour minimiser les retards de paquets et mieux soutenir les applications en temps réel. Des options pour des serveurs de nœuds au bord construits sur les CPU Ampere® Altra® Max sont prévues pour une date ultérieure.

Share the Post: