Home » Sciences et technologies » Le processeur Arm « Grace » de Nvidia résiste au X86 pour le HPC

Le processeur Arm « Grace » de Nvidia résiste au X86 pour le HPC

by Nouvelles
Le processeur Arm « Grace » de Nvidia résiste au X86 pour le HPC

À bien des égards, le processeur serveur « Grace » CG100 créé par Nvidia – son premier véritable processeur serveur et un complément très utile pour étendre l’espace mémoire de ses accélérateurs GPU « Hopper » GH100 – a été parfaitement conçu pour les charges de travail de simulation et de modélisation HPC. Et plusieurs grands laboratoires de calcul intensif mettent le processeur Grace à l’épreuve du HPC et nous constatons des premiers résultats intéressants.

Le processeur Grace a un nombre de cœurs relativement élevé et une empreinte thermique relativement faible, et il dispose de banques de mémoire DDR5 (LPDDR5) à faible consommation – du type utilisé dans les ordinateurs portables mais agrémenté d’une correction d’erreur pour être de classe serveur – d’une capacité suffisante pour être utile pour les systèmes HPC, qui disposent généralement de 256 Go ou 512 Go par nœud de nos jours et parfois moins.

Rassemblez deux processeurs Grace dans une superpuce Grace-Grace, un package étroitement couplé utilisant des interconnexions puce à puce NVLink qui assurent la cohérence de la mémoire entre les banques de mémoire LPDDR5 et qui ne consomme qu’environ 500 watts, et cela devient très intéressant pour le public HPC. . Cela donne un total de 144 cœurs Arm Neoverse « Demeter » V2 avec l’architecture Armv9 et 1 To de mémoire physique avec 546 Go/s de bande passante théorique maximale. Pour une raison quelconque, probablement liée au rendement de la mémoire LPDDR5, seuls 480 Go de cette capacité de mémoire et seulement 512 Go/s de cette bande passante mémoire sont réellement disponibles. Si Nvidia voulait le faire, il pourrait créer un module de calcul Grace à quatre voies qui serait cohérent sur 288 cœurs et 960 Go de mémoire avec 1 To/s de bande passante globale. Un tel quad pourrait donner un N-1 ou N-2 génération GPU une course pour l’argent. . . .

Pour référence, nous avons effectué notre analyse initiale de la puce Grace lors de son lancement en mars 2022, approfondi l’architecture de la puce Grace en août 2022 (alors que personne ne savait encore exactement quel noyau Arm Nvidia utilisait) et approfondi dans le noyau Demeter V2 en septembre 2023 lorsque Arm a publié des détails sur l’architecture. Nous n’allons pas revenir sur l’architecture mais rappelons que le cœur Arm V2 que Nvidia a adopté pour Grace (plutôt que de concevoir son propre cœur) dispose de quatre moteurs vectoriels SVE2 de 128 bits, ce qui le rend comparable à la paire. de moteurs vectoriels AVX-512 dans une architecture Intel Xeon SP et donc capable d’exécuter des charges de travail HPC classiques ainsi que certaines charges de travail d’inférence d’IA (celles qui ne sont pas trop grosses) et peut-être même le recyclage de modèles d’IA de taille modeste.

Les données récemment publiées par le Barcelona Supercomputing Center et les campus de l’Université d’État de New York à Stony Brook et Buffalo le confirment certainement. Les deux groupes ont publié des résultats de référence comparant les superpuces Grace-Hopper et Grace-Grace à une grande variété de références HPC et IA, et cela montre ce que nous avions déjà supposé : si vous regardez les thermiques et probablement le coût, le processeur Grace va pouvoir pour tirer son épingle du jeu en HPC.

Les deux organisations ont publié des articles sur Conférence HPC Asie 2024 tenue à Nagoya, au Japon, la semaine dernière. Celui qui est issu de BSC s’appelle Évaluation précoce de la puce Nvidia Grace Superchip pour les applications HPC, que vous pouvez lire iciet celui des chercheurs de Stony Brook et Buffalo s’appelle Premières impressions de la superpuce CPU Nvidia Grace et de la superpuce Nvidia Grace Hopper pour les charges de travail scientifiques, que vous pouvez lire ici. Ensemble, les articles présentent une vision réaliste des performances des applications HPC clés sur les superpuces Grace-Grace et Grace-Hopper. L’article des chercheurs de SUNY est peut-être plus utile car il rassemble les chiffres de performances de plusieurs centres HPC et d’un seul constructeur de cloud. Pour être plus précis, les données du deuxième article s’appuient sur les données de performances de Stony Brook, AWS, Pittsburgh Supercomputing Center, Texas Advanced Computing Center et Purdue University.

BSC a comparé les performances des superpuces Nvidia Grace-Grace et Grace-Hopper, qui font partie de la partie cluster expérimental de son système MareNostrum 5, avec les nœuds CPU X86 du supercalculateur MareNostrum 4 précédent, qui était basé sur des nœuds composés d’un paire de processeurs « Skylake » Xeon SP-8160 Platinum à 24 cœurs fonctionnant à 2,1 GHz. Voici un schéma fonctionnel pratique des nœuds MareNostrum 4 par rapport aux nœuds Grace-Hopper et Grace-Grace :

Sur les nœuds Grace-Hopper, BSC a uniquement testé diverses applications HPC sur la partie CPU de la superpuce. (L’équipe de Stony Brook a testé la paire CPU-CPU et la paire CPU-GPU dans son évaluation des premiers systèmes Nvidia à adopter.)

Voici un autre tableau pratique que BSC a élaboré en comparant les architectures des trois systèmes testés :

BSC indique que les versions à accès anticipé du processeur Grace étaient équipées de processeurs réduits à 3,2 GHz et que la bande passante mémoire était également réduite par rapport à ce que Nvidia attendait des unités de production complètes. Le montant exact n’a pas été quantifié, mais l’unité testée avait une vitesse d’horloge d’environ 3,2 GHz sur le processeur Grace.

En ce qui concerne les applications, BSC a exécuté son code de mécanique informatique Alya, ainsi que la dynamique informatique des fluides OpenFOAM, le modèle climatique océanique NEMO, le modèle de dynamique moléculaire LAMMPS et le cadre de simulation multicellulaire PhysiCell sur les trois types de nœuds. Voici un aperçu de la comparaison entre les nœuds Grace-Grace et les nœuds MareNostrum 4. Nous ignorons les nœuds Grace-Hopper puisque les GPU n’ont pas été utilisés et que cela devrait représenter environ la moitié des performances des nœuds Grace-Grace. Jetez un œil à ces accélérations lorsque le même nombre de cœurs est utilisé :

  • Sur l’application Alya, Grace-Grace était 1,67X plus rapide à 1,81X.
  • Sur OpenFOAM, l’accélération avec Grace-Grace était de 4,49X.
  • Sur NEMO, l’accélération était de 2,78X.
  • Sur LAMMPS, l’accélération était de 2,1X à 2,9X pour le même nombre de cœurs, variant de 1 à 288.
  • Sur PhysiCell, l’accélération était de 3,24X pour les mêmes 48 cœurs sur chaque nœud.

De toute évidence, l’unité Grace-Grace possède trois fois plus de cœurs, les performances de nœud à nœud doivent donc être proportionnelles à cela.

L’article de Stony Brook a également effectué de nombreux tests de référence et collecté les résultats d’autres machines, comme nous l’avons souligné ci-dessus. Voici le tableau montrant les performances relatives des différents nœuds exécutant le benchmark HPC Challenge (HPCC), avec les éléments Matrix, LINPACK et FFT extraits séparément :

Cela fait longtemps que nous n’avons pas vu de données de référence avec des barres d’erreur, qui sont évidemment toujours présentes en raison de la difficulté de faire des lectures et que la plupart des tests n’incluent pas. Quoi qu’il en soit, au niveau du socket, les performances de la superpuce Grace-Grace se situent quelque part entre un Intel « Ice Lake » et un Xeon SP « Skylake » et quelque part au-dessus d’un AMD Epyc « Milan » et « Rome ». (Belles tables, mais la manière. Merci.)

Sur le test HPCG (High Performance Conjugate Gradients), beaucoup plus exigeant, qui met l’accent sur l’équilibre entre la bande passante de calcul et la bande passante mémoire et qui donne souvent aux supercalculateurs un aspect pathétique, voici comment la superpuce Grace-Grace se compare :

Voici comment Grace-Grace s’est comportée sur OpenFOAM, en utilisant la simulation MotoBikeQ avec 11 millions de cellules sur toutes les machines :

Nous nous serions attendus à ce que l’unité Grace-Grace fasse mieux ici. Hmmm.

Et enfin, voici comment le benchmark de dynamique moléculaire Gromacs s’est aligné sur les différents nœuds, avec des variantes CPU-GPU et CPU uniquement :

Nous avons un gagnant! Regardez à quel point cette combinaison Grace-Hopper fonctionne bien. Mais n’importe quel processeur associé au même GPU Hopper ferait probablement l’affaire aussi. Sur l’unité Grace-Grace uniquement CPU, les performances du Gromacs sont presque aussi puissantes qu’une paire de processeurs « Sapphire Rapids » Xeon Max Series. Il est à noter que la mémoire HBM de cette puce n’aide pas beaucoup Gromacs. Hummm.

Quoi qu’il en soit, cela donne matière à réflexion sur les charges de travail Grace CPU et HPC. Il existe d’autres références dans l’article de Stony Brook, alors assurez-vous de les consulter.

2024-02-07 00:28:08
1707255630


#processeur #Arm #Grace #Nvidia #résiste #X86 #pour #HPC

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.