Un service décrit comme « le premier ingénieur logiciel en IA » semble plutôt mauvais dans son travail, selon une évaluation récente.
L’autocodeur s’appelle « Devin » et a été introduit en mars 2024. Le créateur du bot, une société appelée Cognition AI, a fait des affirmations telles que « Devin peut créer et déployer des applications de bout en bout » et « peut trouver et corriger de manière autonome des bogues dans les bases de code ». atteint la disponibilité générale en décembre 2024, à partir de 500 $ par mois.
“Devin est un ingénieur logiciel d’IA autonome qui peut écrire, exécuter et tester du code, aidant ainsi les ingénieurs logiciels à travailler sur des tâches personnelles ou sur leurs projets d’équipe”, explique Cognition. documentation déclare. Il “peut examiner les PR, prendre en charge les migrations de code, répondre aux problèmes d’astreinte, créer des applications Web et même effectuer des tâches d’assistant personnel comme commander votre déjeuner sur DoorDash afin que vous puissiez rester verrouillé sur votre base de code”.
Le service utilise Slack comme interface principale pour les commandes qui sont envoyées à son environnement informatique, un conteneur Docker qui héberge un terminal, un navigateur, un éditeur de code et un planificateur. L’agent AI prend en charge l’intégration d’API avec des services externes. Cela lui permet, par exemple, d’envoyer des e-mails au nom d’un utilisateur via SendGrid.
Devin est un “système d’IA composé“, ce qui signifie qu’il s’appuie sur plusieurs modèles d’IA sous-jacents, un ensemble qui inclut le GPT-4o d’OpenAI et qui devrait évoluer au fil du temps.
En théorie, vous devriez pouvoir lui demander d’entreprendre des tâches comme la migration du code vers nbdevune plate-forme de développement Jupyter Notebook, et nous espérons qu’elle le fera avec succès. Mais c’est peut-être trop demander.
Les premières évaluations de Devin ont révélé des problèmes. Cognition AI a publié un vidéo promotionnelle qui aurait montré le codeur d’IA réalisant de manière autonome des projets sur la plateforme de travail indépendant Upwork. Développeur de logiciels Carl Brun analysé cette vidéo et l’a démystifiée sur son Chaîne YouTube Internet des bogues.
L’agent logiciel a également été interpellé par un autre expert du code YouTube pour avoir prétendument inclus problèmes de sécurité critiques.
Désormais, trois data scientists affiliés à Réponse.AIun laboratoire de recherche et développement en IA fondé par Jeremy Howard et Eric Ries, ont testé Devin et a constaté qu’il n’avait accompli avec succès que trois tâches sur 20.
Dans un analyse menée plus tôt ce mois-ci par Hamel Hussein, Isaac Flathet John WhitakerDevin a bien commencé, en extrayant avec succès les données d’une base de données Notion vers Google Sheets. L’agent IA a également réussi à créer un tracker de planètes pour vérifier les affirmations sur les positions historiques de Jupiter et Saturne.
Mais alors que les trois chercheurs poursuivaient leurs tests, ils ont rencontré des problèmes.
“Des tâches qui semblaient simples prenaient souvent des jours plutôt que des heures, Devin se retrouvant coincé dans des impasses techniques ou produisant des solutions trop complexes et inutilisables”, expliquent les chercheurs dans leur rapport. “La tendance de Devin à se lancer dans des tâches qui n’étaient pas réellement possibles était encore plus préoccupante.”
À titre d’exemple, ils ont cité comment Devin, lorsqu’on lui a demandé de déployer plusieurs applications sur la plate-forme de déploiement d’infrastructure Chemin de ferJe n’ai pas compris que cela n’était pas pris en charge et j’ai passé plus d’une journée à essayer des approches qui ne fonctionnaient pas et à halluciner des fonctionnalités inexistantes.
De 20 tâches présentées à Devinl’ingénieur logiciel d’IA n’en a complété que trois de manière satisfaisante – les deux cités ci-dessus et un troisième défi consistant à rechercher comment créer un bot Discord en Python. Trois autres tâches ont produit des résultats peu concluants et 14 projets ont été des échecs purs et simples.
Les chercheurs ont déclaré que Devin offrait une expérience utilisateur raffinée qui était impressionnante lorsqu’elle fonctionnait.
“Mais c’est là le problème : cela a rarement fonctionné”, ont-ils écrit.
“Plus inquiétant était notre incapacité à prédire quelles tâches réussiraient. Même des tâches similaires à nos premières victoires échoueraient de manière complexe et chronophage. La nature autonome qui semblait prometteuse devenait un handicap – Devin passait des jours à chercher des solutions impossibles plutôt que de reconnaître bloqueurs fondamentaux.
Cognition AI n’a pas répondu à une demande de commentaire. ®
#premier #ingénieur #logiciel #fait #mal #son #travail #Register