2025-01-24 12:19:00
Opérateur, alimenté par CUA, d’OpenAI – OUVERTURE
MADRID, 24 Ene. (Portail/EP) –
OpenAI a publié la version préliminaire d’Operator, un agent qui combine les capacités du modèle GPT-4o avec un raisonnement avancé grâce à l’apprentissage et peut interagir avec des interfaces utilisateur graphiques (GUI) pour naviguer sur Internet de manière autonome, comme s’il s’agissait d’un humain.
Cet outil fonctionne avec un nouveau modèle appelé Computer-Using Agent (CUA) et s’appuie « sur des années de recherche fondamentale à l’intersection entre la compréhension et le raisonnement multimodal », comme l’explique le développeur dans un communiqué. communiqué.
En combinant des informations avancées sur l’interface graphique avec la résolution de problèmes, ce CUA est capable de diviser les tâches pour les exécuter en plusieurs étapes, s’adapte de manière dynamique lorsque des changements inattendus surviennent et s’auto-corrige si vous effectuez une action de manière incorrecte.
Plus précisément, le modèle, qui combine GPT-4o avec un raisonnement avancétraite les données des pixels de l’écran pour comprendre ce qui se passe à l’écran et utilise une souris et un clavier virtuels pour effectuer des actions de manière autonome, avec des actions telles que cliquer, faire défiler ou taper.
De cette façon, vous pouvez agir avec des capacités humaines dans un large éventail d’environnements numériques, interagir avec des boutons, des menus et des champs de texte (GUI), effectuer des tâches telles que remplir des formulaires et naviguer sur des sites Web sans avoir besoin d’interfaces de programmation d’applications (API). ) spécialisé.
Cependant, l’entreprise technologique a souligné Bien que ce modèle gère automatiquement la plupart des étapes, demande la confirmation de l’utilisateur pour les actions sensibles. Par exemple, saisir des informations de connexion, répondre à des formulaires CAPTCHA ou exécuter une transaction bancaire.
D’autre part, OpenAI a précisé qu’il stocke les discussions, l’historique de navigation et les captures d’écran que l’opérateur prend pour offrir son service jusqu’à ce qu’ils soient supprimés par les utilisateurs, qui peuvent le faire via la page Paramètres de l’outil.
De plus, la suppression d’une discussion supprime toutes les captures d’écran prises au cours de cette discussion. Une fois toutes ces informations supprimées, elles seront supprimées des systèmes de l’entreprise dans un délai de 90 jours.
En raison de toutes les capacités discutées, OpenAI a noté que ses nouveaux travaux « marquent la prochaine étape dans le développement de l’IA, car ils permettent aux modèles d’utiliser les mêmes outils dont les humains dépendent quotidiennement et ouvrent la porte à un large éventail de nouvelles technologies ». candidatures.
CUA en est encore à ses premiers stades de développement et présente certaines limites. De même, il est soutenu par WebArena et WebVoyager, atteignant un taux de réussite de 58,1 pour cent dans le premier et de 87 pour cent dans le second.
Par ailleurs, OpenAI a noté qu’OSWorld, une référence qui évalue la capacité des modèles à contrôler des systèmes d’exploitation entiers, tels qu’Ubuntu, Windows et macOS, lui a donné un taux de réussite de 38,1 %. Cependant, l’entreprise a observé une escalade dans la durée des tests. ce qui signifie que les performances du modèle s’améliorent lorsqu’il doit exécuter plus d’étapes ou d’actions.
La société a également souligné que CUA a été développée avec la sécurité comme priorité absolue pour relever les défis posés par l’accès d’un agent au monde réel. Par ici, est entraîné à rejeter tâches nuisibles et activités illégales ou irrégulière.
Il ne peut pas non plus accéder aux sites Web qu’OpenAI lui-même a bloqués de manière préventive, tels que les sites de contenu pour adultes ou les sites de jeux d’argent, et est capable d’identifier les activités frauduleuses. De cette façon, il surveille l’activité et suspend l’exécution d’une action s’il détecte un contenu suspect sur le panneau.
Cet agent est actuellement en cours de déploiement via un aperçu de recherche via Operator.chatgpt.com et est désormais accessible aux abonnés Pro aux États-Unis. Bientôt, il prévoit de le proposer aux utilisateurs Plus, Team et Enterprise, ainsi que d’intégrer ses capacités dans ChatGPT.
#Lagent #Operator #dOpenAI #possède #des #capacités #humaines #pour #naviguer #exécuter #des #tâches #sur #Internet
1737904825