L’approche d’Intuit Engineering pour simplifier la gestion de Kubernetes avec l’IA

Intuit a récemment expliqué comment ils ont géré les complexités de la surveillance et du débogage des clusters Kubernetes à l’aide de l’IA générative (GenAI). Les expériences GenAI ont été menées pour rationaliser les processus de détection, de débogage et de correction.

Lili WanIngénieur logiciel senior et Anusha RagunathanIngénieur logiciel principal chez Intuit a détaillé l’expérience et fourni un aperçu de la plateforme de services Kubernetes d’Intuit.

Avec plus de 325 clusters Kubernetes prenant en charge plus de 7 000 applications et services, Intuit a dû relever des défis pour maintenir la santé des clusters et minimiser la fatigue des alertes parmi les ingénieurs de garde.

L’intuition Plateforme de services Kubernetes est vaste et complexe, ce qui rend difficile son observation et son débogage efficace. La croissance rapide des applications et les changements fréquents dans les clusters ont ajouté des niveaux supplémentaires de complexité. Les ingénieurs étaient souvent fatigués des alertes en raison du volume considérable de sources de données et d’alertes, ce qui compliquait la détection et la résolution des problèmes.

L’équipe d’Intuit a identifié trois domaines clés à améliorer : la détection, le débogage et la correction.

Pour améliorer les capacités de détection, Intuit a mis en œuvre un système appelé « Cluster Golden Signals », qui reflète le concept de signaux d’or de service. Ce système fournit une vue consolidée de la santé d’un cluster en filtrant le bruit et en se concentrant sur les signaux critiques pour l’alerte.

Pour un débogage plus approfondi, Intuit a intégré un outil open source appelé K8sGPT. Cet outil analyse les clusters Kubernetes pour diagnostiquer et trier les problèmes en exploitant les connaissances codifiées des ingénieurs en fiabilité des sites. K8sGPT utilise des analyseurs spécifiques aux ressources pour extraire les messages d’erreur pertinents des clusters, les enrichissant ainsi d’informations sur l’IA. En combinant les métriques Prometheus avec Golden Signals, K8sGPT peut inciter les modèles publics à rechercher des détails supplémentaires sur les erreurs.

Cette intégration fournit plus de contexte pour identifier les causes profondes potentielles des alertes.

Il fonctionne sur les machines Windows, Mac et Linux et peut être installé via Brew, RPM, DEB ou APK.

Une fois les problèmes débogués, la correction est l’étape suivante. K8sGPT s’intègre aux grands modèles linguistiques (LLM) publics d’entreprises comme OpenAI, Google et Microsoft pour suggérer des étapes de correction pour les erreurs spécifiques à Kubernetes. Cependant, les LLM publics manquent de contexte sur les configurations spécifiques de la plateforme Intuit.

Pour combler cette lacune, Intuit a développé un système d’exploitation propriétaire GenAI (GenOS), qui héberge des modèles locaux augmentés de données spécifiques à Intuit grâce à la génération augmentée par récupération (RAG).

Intuit prévoit de continuer à surveiller les progrès réalisés dans la réduction du MTTD et du temps moyen de résolution (MTTR). Ils visent également à explorer les applications potentielles de GenAI dans d’autres domaines tels que la gestion du trafic et le débogage des machines virtuelles Java.

#Lapproche #dIntuit #Engineering #pour #simplifier #gestion #Kubernetes #avec #lIA

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.