2024-03-13 14:56:27
MADRID, 13 mars (Portaltic/EP) –
Méta a annoncé un investissement dans l’infrastructure d’intelligence artificielle (IA) avec deux nouveaux clusters le GPU 24k, dont la conception est utilisée pour former son grand modèle de langage (LLM) Lama 3.
L’entreprise a partagé les détails sur le « matériel », le réseau, le stockage, la conception, les performances et le « logiciel » qui leur permettent « d’atteindre des performances et une fiabilité élevées » pour les différentes charges de travail exigées par les modèles d’IA.
Meta est consciente que « diriger le développement de l’IA signifie diriger les investissements dans l’infrastructure matérielle, qui joue un rôle fondamental dans l’avenir de l’IA », comme l’a expliqué dans un communiqué.
Pour cette raison, il a créé deux clusters de 24 576 GPU, prenant en charge les modèles d’IA actuels et de nouvelle génération, y compris le successeur de Llama 2, qui est actuellement en cours de formation.
L’entreprise technologique a expliqué qu’elle envisageait de construire une IA générale (AGI) « ouverte et responsable » et largement disponible afin que tous les utilisateurs puissent en bénéficier.
Cependant, à mesure qu’elle continue de développer ce format, elle s’efforce d’étendre ses clusters, afin de piloter de nouvelles fonctions d’IA pour sa famille d’applications et de nouveaux dispositifs informatiques axés sur cette technologie.
Cela a également été possible avec le SuperCluster de recherche en IA (RSC), présenté en 2022, qui comprend 16 000 GPU Nvidia A100, et qui joue “un rôle important” dans le développement des modèles Llama et Llama 2.
Sur la base des leçons tirées de la RSE, l’entreprise s’est concentrée sur la création d’IA en mettant un accent particulier sur « l’expérience et la productivité des chercheurs et des développeurs », comme l’explique ce communiqué.
L’efficacité des structures de réseau hautes performances au sein de ces clusters, en combinaison avec le 24k GPU Nvidia Tensor Core H100 dans chacun d’eux, “ils permettent aux deux versions de cluster de prendre en charge des modèles plus grands et plus complexes” que ceux qui pourraient être pris en charge dans le RSC. Par conséquent, Meta estime que ces deux éléments ouvrent la voie à des progrès dans le développement de produits GenAI et dans la recherche sur l’IA.
DEUX SOLUTIONS POUR UNE INFRASTRUCTURE FLEXIBLE
L’entreprise est consciente qu’offrir des services à grande échelle nécessite que son infrastructure soit « avancée et flexible », avec une conception personnalisée du « matériel » et du « logiciel ». Cela leur permet de garantir que leurs centres de données fonctionnent efficacement.
Le premier de ces clusters comprend une solution de structure réseau d’accès direct à la mémoire à distance (RDMA) sur Ethernet convergé (RoCE), basée sur Arista 7800 et avec des commutateurs de rack OCP Wedge400 et Minipack2.
L’autre cluster dispose d’une infrastructure Nvidia Quantum2 InfiniBand. De plus, les deux solutions interconnectent des points de terminaison de 400 Gbit/s et peuvent toutes deux évaluer l’adéquation et l’évolutivité de différents types d’interconnexion pour une formation à grande échelle.
Meta a cependant commenté que les deux clusters sont construits à l’aide de Grand Teton, une plate-forme matérielle GPU ouverte basée sur différentes générations de systèmes d’IA intégrant interfaces énergie, contrôle, calcul et structure dans un seul châssis, améliorant les performances globales et thermiques ainsi que l’intégrité du signal.
Au niveau du stockage, et compte tenu du fait que le travail de formation de l’équipe de recherche en IA générative consomme de grandes quantités de données, l’entreprise technologique a opté pour une interface de programmation d’application (API) de fichiers Linux en espace utilisateur (FUSE) supportée par un stockage distribué. solution Tectonique Meta, optimisé pour les médias Flash.
Cette solution permet à des milliers de GPU de « sauvegarder et charger des points de contrôle de manière synchrone », offrant simultanément un stockage flexible à l’échelle de l’exaoctet.
De plus, Meta s’est associé à Espace marteau développer conjointement un système de fichiers en réseau (NFS). Ainsi, la combinaison de Tectonic avec Hammerspace – qui sont basés sur la plate-forme serveur YV3 Sierra Point- offre “une vitesse d’itération rapide sans compromettre l’évolutivité”.
Meta a enfin rappelé qu’elle maintient son engagement en faveur de l’innovation ouverte dans les logiciels et matériels d’IA, c’est pourquoi elle a lancé un programme de partenariat pour les chercheurs universitaires qui souhaitent développer et partager de manière responsable ces technologies, ainsi que AI Allianceun groupe d’organisations dont l’objectif est d’accélérer l’innovation responsable au sein d’une communauté ouverte.
#Meta #annonce #deux #nouveaux #clusters #GPU #24k #confirme #formation #Llama #est #toujours #cours
1710336312