2024-07-12 05:29:00
AGI – Une nouvelle recherche a révélé les faiblesses de l’un des systèmes d’intelligence artificielle (IA) les plus performants – un robot qui joue au jeu de société Go et peut battre les meilleurs joueurs humains du monde – démontrant que la supériorité supposée de l’IA sur les êtres humains n’est peut-être pas si évident même dans le futur. L’étude soulève la question de savoir si les systèmes d’IA plus généraux peuvent être exempts de vulnérabilités qui pourraient compromettre leur sécurité et leur fiabilité, et même leur prétention d’être « surhumains ».
“Le document laisse un point d’interrogation important sur la manière d’atteindre l’objectif ambitieux de créer des agents d’IA robustes dans le monde réel auxquels les gens peuvent avoir confiance”, déclare Huan Zhang, informaticien à l’Université de l’Illinois à Urbana-Champaign entendu par “Nature”. .
L’analyse, publiée en ligne sous forme de prépublication et non évaluée par des pairs, utilise ce que l’on appelle des attaques contradictoires, ou l’alimentation des systèmes d’intelligence artificielle avec des entrées conçues pour amener les systèmes à commettre des erreurs, à la fois à des fins de recherche et à des fins néfastes. Par exemple, certaines invites peuvent « jailbreaker » les chatbots, les obligeant à fournir des informations malveillantes qu’ils ont été formés pour supprimer. Au Go, deux joueurs placent à tour de rôle des pierres noires et blanches sur une grille pour entourer et capturer les pierres de l’autre joueur.
En 2022, des chercheurs ont rapporté avoir entraîné des robots IA opposés pour vaincre KataGo, le meilleur système d’IA open source pour jouer au Go, qui bat généralement facilement les meilleurs joueurs humains. Leurs robots trouvaient régulièrement des moyens de battre KataGo, même s’ils n’étaient pas vraiment très bons dans l’ensemble – des humains amateurs pouvaient les battre. De plus, les humains pourraient comprendre les astuces des robots et les adopter pour battre KataGo.
Était-ce un cas isolé, ou ces travaux ont-ils mis en évidence une faiblesse fondamentale de KataGo et, par extension, d’autres systèmes d’IA dotés de capacités apparemment surhumaines ?
Pour enquêter, de nouveaux chercheurs, dirigés par Adam Gleave, PDG de FAR AI, un organisme de recherche à but non lucratif basé à Berkeley, en Californie, et co-auteur de l’article de 2022, ont utilisé des robots antagonistes pour tester trois façons de défendre les Go AI contre de telles attaques. La première défense était celle que les développeurs de KataGo avaient déjà mise en œuvre après les attaques de 2022 : donnez à KataGo des exemples de positions du conseil d’administration impliquées dans les attaques et faites-le jouer seul pour apprendre à jouer contre ces positions.
Mais les auteurs du dernier article ont découvert qu’un robot adverse pourrait apprendre à battre même cette version mise à jour de KataGo, gagnant 91 % du temps.
La deuxième stratégie défensive essayée par l’équipe de Gleave était itérative : entraîner une version de KataGo contre des robots adverses, puis entraîner des attaquants contre le KataGo mis à jour, et ainsi de suite, pendant neuf tours. Mais même cela n’a pas produit une version imbattable de KataGo.
Comme troisième stratégie défensive, les chercheurs ont formé un nouveau système d’IA à partir de zéro pour jouer à KataGo, basé sur un modèle informatique connu sous le nom de réseau neuronal convolutif (CNN). Les chercheurs soupçonnaient que les CNN pourraient trop se concentrer sur les détails locaux et perdre de vue les modèles globaux. Ils ont donc créé un lecteur Go utilisant un réseau neuronal alternatif appelé transformateur de vision (ViT).
Mais le robot adverse a trouvé une nouvelle attaque qui l’a aidé à gagner 78 % du temps contre le nouveau système ViT. Dans tous ces cas, les robots adverses, bien que capables de battre KataGo et d’autres systèmes de jeu de Go de haut niveau, ont été entraînés à découvrir des vulnérabilités cachées dans d’autres IA, et non à être des stratèges complets. “Les robots sont plutôt faibles, nous les avons battus nous-mêmes assez facilement”, explique Gleave.
Et avec des humains capables d’utiliser des tactiques de robots adverses pour battre les systèmes experts en IA, est-il toujours logique de qualifier ces systèmes de surhumains ? David Wu, un informaticien de New York qui a été le premier à développer KataGo, affirme que les IA Go puissantes sont « surhumaines en moyenne » mais pas « surhumaines dans le pire des cas ». Gleave affirme que les résultats pourraient avoir de larges implications pour les systèmes d’intelligence artificielle, y compris les grands modèles de langage qui sous-tendent les chatbots comme ChatGPT. « En fin de compte, pour l’IA, ces vulnérabilités seront difficiles à éliminer », explique Gleave. “Si nous ne pouvons pas résoudre le problème dans un domaine simple comme Go, alors à court terme, il semble y avoir peu de chances de résoudre des problèmes similaires comme les jailbreaks dans ChatGPT.”
#Lintelligence #artificielle #pourra #peutêtre #pas #surpasser #les #humains
1720771619