Home » Sciences et technologies » Cet article sur l’IA présente SWE-Gym : un environnement de formation complet pour les agents de génie logiciel du monde réel

Cet article sur l’IA présente SWE-Gym : un environnement de formation complet pour les agents de génie logiciel du monde réel

by Nouvelles

Les agents de génie logiciel sont devenus essentiels pour gérer des tâches de codage complexes, en particulier dans les grands référentiels. Ces agents utilisent des modèles de langage avancés pour interpréter les descriptions en langage naturel, analyser les bases de code et implémenter des modifications. Leurs applications incluent le débogage, le développement de fonctionnalités et l’optimisation. L’efficacité de ces systèmes repose sur leur capacité à relever des défis du monde réel, tels que l’interaction avec de vastes référentiels et l’exécution de tests pour valider les solutions, ce qui rend le développement de tels agents à la fois passionnant et stimulant.

Le manque d’environnements de formation complets est l’un des principaux défis dans ce domaine. De nombreux ensembles de données et benchmarks existants, tels que SWE-Bench et R2E, se concentrent sur des problèmes isolés ou s’appuient sur des instructions synthétiques qui ne représentent pas la complexité des tâches de codage du monde réel. Par exemple, alors que SWE-Bench propose des cas de test pour la validation, son ensemble de données de formation manque d’environnements exécutables et de configurations de dépendances. Cet écart limite l’utilité des références existantes pour former des agents capables de relever les défis nuancés du génie logiciel.

Des chercheurs de l’UC Berkeley, de l’UIUC, de la CMU et d’Apple ont développé SWE-Gym, un nouvel environnement conçu pour former des agents en génie logiciel. SWE-Gym intègre 2 438 tâches Python provenant de problèmes GitHub dans 11 référentiels, offrant des environnements exécutables préconfigurés et des cas de test validés par des experts. Cette plateforme introduit une approche révolutionnaire en combinant la complexité des tâches du monde réel avec des mécanismes de test automatisés, créant ainsi un écosystème de formation plus efficace pour les modèles de langage.

La méthodologie de SWE-Gym se concentre sur la reproduction des conditions de codage du monde réel. Les tâches sont dérivées des problèmes GitHub et associées aux instantanés du référentiel et aux tests unitaires correspondants. Les dépendances pour chaque tâche sont méticuleusement configurées, garantissant l’exactitude de l’environnement exécutable. Ces configurations ont été validées semi-manuellement par le biais de processus rigoureux impliquant environ 200 heures d’annotation humaine et 10 000 heures de cœur de processeur, ce qui a permis d’obtenir un ensemble de données de formation robuste. Les chercheurs ont également introduit un sous-ensemble de 230 tâches, SWE-Gym Lite, qui cible des problèmes plus simples et autonomes, permettant un prototypage et une évaluation rapides.

Les chercheurs ont également exploré la mise à l’échelle du temps d’inférence en employant un vérificateur formé sur les trajectoires d’agents échantillonnées à partir de SWE-Gym. Cette approche a permis aux agents de générer plusieurs trajectoires de solutions pour un problème donné, en sélectionnant la plus prometteuse à l’aide d’un modèle de récompense. Le vérificateur a obtenu un score Best@K de 32,0 % sur SWE-Bench Verified, démontrant la capacité de l’environnement à améliorer les performances des agents grâce à des stratégies de calcul évolutives. Ces résultats soulignent le potentiel de SWE-Gym pour améliorer à la fois le développement et l’évaluation d’agents de génie logiciel.

SWE-Gym est un outil essentiel pour faire progresser la recherche sur les agents du génie logiciel. Remédier aux limites des benchmarks antérieurs et offrir un environnement évolutif et réaliste donne aux chercheurs les ressources nécessaires pour développer des modèles robustes capables de résoudre des défis logiciels complexes. Avec sa version open source, SWE-Gym ouvre la voie à des avancées significatives dans le domaine, établissant de nouvelles normes pour la formation et l’évaluation des agents en génie logiciel.

Vérifier le Papier et GitHub. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de nous suivre sur Gazouillement et rejoignez notre Chaîne de télégramme et LinkedIn Groups. N’oubliez pas de rejoindre notre 60 000+ sous-reddit ML.

🚨 WEBINAIRE GRATUIT À VENIR SUR L’IA (15 JANVIER 2025) : Améliorez la précision du LLM grâce aux données synthétiques et à l’intelligence d’évaluationRejoignez ce webinaire pour obtenir des informations exploitables sur l’amélioration des performances et de la précision des modèles LLM tout en protégeant la confidentialité des données..

Nikhil est consultant stagiaire chez Marktechpost. Il poursuit un double diplôme intégré en matériaux à l’Institut indien de technologie de Kharagpur. Nikhil est un passionné d’IA/ML qui recherche toujours des applications dans des domaines tels que les biomatériaux et la science biomédicale. Fort d’une solide expérience en science des matériaux, il explore de nouvelles avancées et crée des opportunités de contribution.

🧵🧵 Suivez-nous sur X (Twitter) pour obtenir des mises à jour régulières sur la recherche et les développements en IA ici…
#Cet #article #sur #lIA #présente #SWEGym #environnement #formation #complet #pour #les #agents #génie #logiciel #monde #réel

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.