Google a révélé une version optimisée de son unité de traitement de tenseur (TPU) appelée v5p conçue pour réduire l’engagement de temps associé à l’entraînement de grands modèles de langage. Le circuit intégré repose sur le TPU v5e annoncé plus tôt cette année. Mais alors que ce circuit intégré était présenté comme l’accélérateur d’IA le plus « rentable » de Google, son TPU v5p est conçu pour pousser plus de FLOPS et évoluer vers des clusters encore plus importants. Google s’est appuyé pendant plusieurs années sur ses TPU personnalisés, qui ne sont en fait que de grandes accélérateurs de mathématiques matricielles, pour alimenter le nombre croissant de fonctionnalités d’apprentissage automatique intégrées à ses produits Web tels que Gmail, Google Maps et YouTube. Plus récemment, cependant, Google a commencé à ouvrir ses TPU au public pour exécuter des tâches d’entraînement et d’inférence d’IA. Selon Google, le TPU v5p est le plus puissant à ce jour, capable de pousser 459 teraFLOPS de performance bfloat16 ou 918 teraOPS d’Int8. Cela est soutenu par 95 Go de mémoire à haut débit capable de transférer des données à une vitesse de 2,76 TB / s. Jusqu’à 8 960 accélérateurs v5p peuvent être couplés ensemble dans un seul module en utilisant l’interconnexion entre puces de 600 Go / s de Google pour entraîner les modèles plus rapidement ou avec une plus grande précision. Pour mémoire, cela représente 35 fois plus que ce qui était possible avec le TPU v5e et plus de deux fois plus que ce qui est possible avec le TPU v4.
« Les livres de Penguin Random House disent maintenant explicitement ‘non’ à la formation IA »
‘Écrit par Emma Roth, dont le portfolio couvre aussi bien les percées technologiques grand public, les dynamiques de l’industrie du