Les centres nationaux de calcul intensif aux États-Unis, en Europe et en Chine sont non seulement assez riches pour construire des machines très puissantes, mais ils sont également suffisamment riches, grâce à leurs gouvernements nationaux, pour souscrire et prendre en charge des architectures multiples et quelque peu incompatibles afin de couvrir leurs paris et atténuer leur risque.
Aux États-Unis, la National Science Foundation, aux côtés du ministère de l’Énergie, aime garder ses options ouvertes comme on l’a vu dans les pages de La prochaine plateforme Au cours de la dernière décennie, et grâce au Texas Advanced Computing Center de l’Université du Texas, qui est l’installation phare de la NSF, il existe même suffisamment d’appétit et de financement pour fournir plusieurs architectures chez différents fournisseurs au sein du TACC.
Mais finalement, un moteur de calcul a été choisi pour le système performant du TACC, et avec le récent lancement du cluster hybride CPU-GPU « Vista » dans l’installation, le décor est désormais planté pour une course de chevaux à trois entre Intel , AMD et Nvidia seront le fournisseur de moteurs de calcul pour le futur supercalculateur « Horizon » dont le mandat est d’être 10 fois plus rapide que l’actuel supercalculateur entièrement CPU « Frontera », dont la construction a coûté 60 millions de dollars et qui a été installé en 2019.
Avant les problèmes liés aux gammes de produits Intel et la pandémie de coronavirus, TACC s’attendait à une phase deux de suivi de Frontera, éventuellement avec une sorte d’accélérateur fournissant une grande partie ou la majeure partie de sa capacité de calcul, qui serait livrée en 2021, mais à la place TACC a mis à niveau ses systèmes compagnons « Lonestar » et « Stampede » et a continué à utiliser les 8 008 nœuds Xeon SP « Cascade Lake » à deux sockets qui ont un total de 448 448 cœurs et 38,7 pétaflops de performances de pointe.
La machine « Lonestar 6 » installée en 2021 est basée sur les processeurs AMD « Milan » Epyc 7763 et possède 71 680 cœurs fournissant 3 pétaflops de punch F64 de pointe pour 8,4 millions de dollars.
Stampede 3 a été installé l’année dernière et sera bientôt en production. La machine Stampede 3 a conservé 1 064 nœuds Intel « Skylake » Xeon SP et 224 nœuds « Ice Lake » Xeon SP utilisés dans le système Stampede 2 précédent et a ajouté 560 nœuds basés sur les processeurs Intel « Sapphire Rapids » Max Series, qui ont de la mémoire HBM2e. , combinant pour un total de 137 952 cœurs (y compris certains nœuds expérimentaux utilisant les accélérateurs GPU Max Series « Ponte Vecchio » d’Intel, et un peu moins de 10 pétaflops de pointe avec une précision FP64.
Avec le système Vista, Nvidia se lance dans l’action. La machine Vista dispose de 600 superpuces, qui combinent un processeur de serveur Arm « Grace » CG100 Arm à 72 cœurs avec un accélérateur GPU « Hopper » GH100 dans un espace mémoire cohérent. Les moteurs vectoriels des GPU H100 offrent à eux seuls 20,4 pétaflops de performances maximales en FP64, et vous pouvez doubler cela jusqu’à 40,2 téraflops en FP64 sur les unités mathématiques matricielles intégrées dans le H100. Fondamentalement, Vista a autant de punch brut que Frontera – à condition que vous puissiez bien sûr transférer les codes des processeurs vers les GPU. Donc, en théorie, il ne faudrait que dix Vistas assemblés pour produire des performances brutes 10 fois supérieures à celles de Frontera – ce qui est l’objectif du futur supercalculateur Horizon qui devrait être hébergé dans une nouvelle installation informatique de classe Leadership que TACC est en train de construire à la périphérie d’Austin. en collaboration avec opérateur de datacenter de colocation Switch.
L’installation, connue sous le nom de The Rock, est le cinquième site de centre de données majeur exploité par Switch, rejoignant les centres de données qu’elle exploite à Reno, Las Vegas, Atlanta et Grand Rapids. Voici à quoi ressemblera la partie du site d’Austin où sera situé le supercalculateur Horizon :
Et voici à quoi ressemblera le complexe de centres de données The Rock construit par Switch :
TACC a adopté une vision très longue dans la conception du futur supercalculateur Horizon et de l’installation LCCF qui l’hébergera ainsi que d’autres futurs supercalculateurs. Le NFS financé les travaux de conception initiaux pour 3,5 millions de dollars en septembre 2020et maintenant La NSF recherche entre 520 et 620 millions de dollars pour financer entièrement le LCCF entre 2024 et 2027. (ce sont les exercices fiscaux du gouvernement américain qui se terminent le 31 juillet de cette année). Mais dans le même document, il y a un tableau qui montre un total de 656 millions de dollars de dépenses jusqu’en F2029. De ce montant, 40 millions de dollars par an sont alloués au fonctionnement du LCCF.
Le système Horizon représente une part importante de ce budget, mais pas autant qu’on pourrait le penser. Dan Stanzione, vice-président associé pour la recherche à l’Université du Texas et directeur exécutif du TACC, nous a donné un aperçu de la réflexion du TACC lorsque nous avons parlé du Stampede 3 et de la machine Vista imminente avant son annonce lors de la conférence sur le calcul intensif SC23 à Denver. l’année dernière. À l’époque, nous avions dit que si nous étions Stanzione, nous achèterions des machines Grace-Grace et Grace-Hopper et que nous mettrions les trois fournisseurs de moteurs de calcul dans une guerre d’enchères, et tout ce qu’il a fait, c’est rire.
Vraisemblablement parce que c’est exactement le plan.
Mais en réalité, concevoir le système Horizon qui sera la première machine du LCCF n’est pas anodin compte tenu de la diversité des charges de travail de la NSF.
“Nous savons que pour les applications que nous profilons pour Horizon, 40 % sont en bon état pour les GPU à ce stade”, explique Stanzione. La prochaine plateforme. « Mais cela signifie que 60 % de nos grandes applications scientifiques ne le sont pas. Je me suis donc engagé à disposer d’un composant CPU important pour Horizon, même si je vais investir les dollars à peu près dans la même répartition que les applications. Donc 40 % de dollars GPU, ce qui signifie environ 80 % d’échecs GPU car ils sont quatre ou cinq fois moins chers en termes de pics d’échecs.
Notre meilleure hypothèse était qu’Horizon coûterait à peu près le même prix que la machine “Blue Waters” qui Cray construit pour le National Center for Supercomputing Applications de l’Université de l’Illinois en 2011, qui a coûté 188 millions de dollars et qui représentait un record pour les dépenses consacrées à un seul système par la NSF. Et Stanzione a confirmé que le coût du système Horizon, qui sera construit en 2025 et opérationnel en 2026, serait dans cette fourchette approximative et n’était « rien à dédaigner », même comparé aux 500 millions de dollars que le système « Frontier » à Oak Ridge. Les laboratoires nationaux ont coûté lors de son installation il y a deux ans ou les 400 millions de dollars que coûte le système imminent « El Capitan » actuellement mis en place au laboratoire national Lawrence Livermore. (Il s’agit des coûts du système moins les coûts d’ingénierie non récurrents, ou NRE.)
Reste la question de cette augmentation de performances 10X par rapport à Frontera pour les applications qui s’exécutent actuellement dessus.
Lars Koesterke, l’un des 190 chercheurs du TACC, a préparé une présentation sur Frontera et Horizon en mars 2023, que nous avons trouvé aujourd’hui en fouillant pour cette histoire. Celui-ci montre à quel point le TACC est devenu central pour le HPC aux États-Unis :
Soit dit en passant, le LCCF est évalué à 15 MW, contre 12 MW pour l’installation actuelle du campus UT. Mais il y a beaucoup de place pour se développer dans ce centre de données de commutation à l’extérieur d’Austin, et il n’y a aucun problème à essayer d’apporter plus de puissance à l’emplacement actuel du TACC.
Veuillez également traiter ceci : 7 milliards d’heures de calcul par an et 5 milliards de fichiers. C’est son propre type d’hyperscale. Et avoir des dizaines de milliers d’utilisateurs et des milliers de projets à gérer n’est pas une blague. Nous l’avons déjà dit et nous le répétons : à certains égards, les hyperscalers ont la tâche facile. Ils gèrent quelques charges de travail à grande échelle. Mais gérer des charges de travail de plusieurs ordres de grandeur plus élevées constitue un type particulier de cauchemar lorsque vous essayez de pousser les performances à leurs limites absolues. Et TACC est probablement le meilleur centre HPC au monde dans ce domaine, avec un temps de disponibilité de 99,2 % et un taux d’utilisation de 95,4 % sur 1,13 million de tâches réalisées au cours des douze mois précédant la présentation organisée par Koesterke.
C’est le cauchemar que l’équipe de Stanzione doit gérer chez TACC sur sa machine phare :
Il s’agit du jeu de Tetris le plus fou au monde, et le fait que les gestionnaires de charge de travail puissent y parvenir est un témoignage du génie humain.
Voici comment TACC réfléchit aux coûts lors de l’élaboration de l’architecture du futur système Horizon :
Il y a du monde réel et de l’eau froide sur le visage que la foule du HPC peut contempler.
Tout cela alimentera la conception d’Horizon, qui, à notre avis, comportera un mélange de nœuds CPU-CPU et de nœuds CPU-GPU, et qui est explicitement conçu pour améliorer les performances des applications en atteignant cet objectif de 10X sur Frontera. Koesterke indique que le TACC prend en compte quatre facteurs en matière de performances des applications, et nous citons :
- Le temps d’exécution a-t-il changé ? (Un analogue de Strong Scaling – exécutez le même problème en moins de temps).
- La taille du problème a-t-elle changé ? (Un analogue de Weak Scaling – exécute des problèmes plus importants en un temps fixe)
- Avons-nous utilisé plus ou moins de la ressource totale ? (Un analogue du débit).
- La physique a-t-elle changé ? (Pas de bon analogique).
Et cela nous amène aux deltas réels que TACC utilisera pour piloter la conception Horizon :
La moyenne sera le multiplicatif de ces quatre facteurs ci-dessus, et toutes les applications ne se multiplieront pas au même rythme sur ces quatre facteurs, même sur le même matériel CPU et GPU. L’objectif, sur ce que nous présumons être les 20 « applications scientifiques caractéristiques » ou CSA examinées par Koesterke, qui couvrent l’astronomie et l’astrophysique, la biophysique et la biologie, la dynamique des fluides computationnelle, la géodynamique et les systèmes terrestres, et l’ingénierie des matériaux, est d’obtenir 10X en quelles que soient les méthodes qui ont du sens pour chaque application individuelle, compte tenu de la nature du code et de son mappage avec le fer.
Le fait est que ce n’est pas nécessairement aussi simple que de construire une machine CPU-GPU de 400 pétaflops, ou un mélange de nœuds CPU uniquement et accélérés par GPU qui totalisent 400 pétaflops, et de l’appeler par jour. TACC a de nombreux codes différents et de nombreux clients différents, contrairement aux autres laboratoires nationaux américains, qui disposent souvent d’une poignée de codes clés et de beaucoup d’argent pour transférer le code à travers des avancées architecturales. Même si Frontera dispose d’un certain nombre de charges de travail de ce type, celles-ci ne dominent pas.
Nous sommes impatients de voir comment NSF et TACC mappent le matériel aux tâches. Nous pouvons tous apprendre beaucoup de la manière dont Horizon sera construit.
2024-01-30 02:48:13
1706575513
#Avec #Vista #TACC #dispose #désormais #trois #voies #vers #son #futur #supercalculateur #Horizon