2024-08-09 09:00:22
Flocon de neige mettra à disposition dans Cortex IA la bibliothèque Maîtrise en droit (LL.M.) open source Llama 3.1 : les entreprises pourront facilement développer des applications efficaces dans un environnement d’entreprise.
Cette offre comprend le LLM open source le plus grand et le plus performant de Meta, Llama 3.1 405B. Dans ce projet, Snowflake a travaillé au développement et à l’open source du système d’inférence afin qu’il puisse être utilisé en temps réel et également à démocratiser davantage de puissantes applications de langage génératif. L’équipe de recherche en IA de Snowflake, leader du secteur, a optimisé Llama 3.1 405B à la fois pour l’inférence et le réglage fin, prenant en charge une énorme fenêtre contextuelle de 128 000 dès le premier jour et permettant une inférence réelle à temps avec une latence de bout en bout jusqu’à 3 fois inférieure et 1,4x. un débit plus élevé que les solutions open source existantes. De plus, il permet d’affiner le modèle à l’aide d’un seul nœud GPU directement dans Cortex AI, éliminant ainsi les coûts et le gaspillage pour les développeurs et les clients.
Grâce à la collaboration avec Meta, Flocon de neige offre aux entreprises clientes un moyen simple, efficace et fiable d’accéder, d’optimiser et de déployer en toute transparence les derniers modèles de Meta dans AI Data Cloud, avec une approche complète de protection et de sécurité intégrée dès le départ.
Snowflake permet d’inférencer et d’affiner l’open source
L’équipe de recherche en IA de Snowflake continue de repousser les limites de l’innovation open source grâce à ses contributions régulières à la communauté de l’IA et à la transparence sur la façon dont elle développe des technologies LLM de pointe. Parallèlement au lancement de Llama 3.1 405B, l’équipe ouvre désormais sa pile d’optimisation de système d’inférence et de réglage fin Massive LLM en collaboration avec DeepSpeed, Hugging Face, vLLM et la communauté plus large de l’IA. Cette réalisation établit une nouvelle norme pour les systèmes d’inférence et d’optimisation open source pour les modèles comportant des centaines de milliards de paramètres.
La grande taille du modèle et les besoins en mémoire représentent un défi important pour les utilisateurs qui souhaitent obtenir une inférence à faible latence pour les applications en temps réel, un débit élevé et une prise en charge des utilisations durables de l’IA générative au niveau de l’entreprise. Cela implique de nombreux efforts également d’un point de vue économique. de vue. Les besoins en mémoire pour maintenir les états du modèle et d’activation rendent également l’optimisation extrêmement coûteuse, tandis que les grands clusters GPU nécessaires pour adapter les états du modèle à la formation sont souvent inaccessibles aux data scientists.
LLM massif
La pile d’optimisation du système Inférence LLM massive et réglage fin de Snowflake fait face à tous ces défis. Grâce à des techniques avancées de traitement parallèle et d’optimisation de la mémoire, Snowflake permet une conception d’IA rapide et efficace, sans avoir besoin d’une infrastructure complexe et coûteuse. Dans le cas de Llama 3.1 405B, la pile système de Snowflake offre des performances en temps réel à haut débit sur un seul nœud GPU et prend en charge une énorme fenêtre contextuelle de 128 Ko dans les configurations multi-nœuds.
Cette flexibilité s’étend à la fois au matériel de nouvelle génération et au matériel existant, ce qui rend Flocon de neige accessible à un plus large éventail d’entreprises. De plus, les data scientists peuvent régler Llama 3.1 405B à l’aide de techniques précision mixte sur moins de GPU, éliminant ainsi le besoin de grands clusters de GPU. En conséquence, les organisations peuvent adapter et déployer de puissantes applications d’IA générative de niveau entreprise de manière simple, efficace et sécurisée.
Il L’équipe IA de Snowflake a également développé une infrastructure optimisée pour le réglage fin qui comprend la différenciation des modèles, les contrôles de sécurité, la génération augmentée par récupération (RAG) et la génération de données synthétiques, afin que les entreprises puissent facilement commencer à utiliser ces cas d’utilisation dans Cortex AI.
#Snowflake #sassocie #aux #modèles #Meta #pour #Cortex
1723405129