Le GPT-4 d’OpenAI peut exploiter de manière autonome 87 % des vulnérabilités d’un jour

Le GPT-4 d’OpenAI peut exploiter de manière autonome 87 % des vulnérabilités d’un jour

Le grand modèle de langage GPT-4 d’OpenAI peut exploiter les vulnérabilités du monde réel sans intervention humaine, un nouvelle étude par des chercheurs d’Urbana-Champaign de l’Université de l’Illinois. D’autres modèles open source, notamment GPT-3.5 et les scanners de vulnérabilités, ne sont pas en mesure de le faire.

Un grand agent de modèle de langage – un système avancé basé sur un LLM qui peut prendre des mesures via des outils, la raison, l’autoréflexion et bien plus encore – fonctionnant sur GPT-4, a exploité avec succès 87 % des vulnérabilités « d’un jour » lorsqu’il a été fourni avec son institut national. des normes et description de la technologie. Les vulnérabilités d’un jour sont celles qui ont été divulguées publiquement mais qui n’ont pas encore été corrigées, elles sont donc toujours ouvertes à l’exploitation.

“À mesure que les LLM sont devenus de plus en plus puissants, les capacités des agents LLM ont également augmenté”, ont écrit les chercheurs dans la prépublication d’arXiv. Ils ont également émis l’hypothèse que l’échec comparatif des autres modèles est dû au fait qu’ils sont « bien pires dans l’utilisation des outils » que le GPT-4.

Les résultats montrent que GPT-4 possède une « capacité émergente » de détection et d’exploitation autonomes des vulnérabilités ponctuelles que les scanners pourraient négliger.

Daniel Kang, professeur adjoint à l’UIUC et auteur de l’étude, espère que les résultats de ses recherches seront utilisés dans le cadre défensif ; cependant, il est conscient que cette capacité pourrait constituer un nouveau mode d’attaque pour les cybercriminels.

Il a déclaré à TechRepublic dans un e-mail : « Je soupçonne que cela réduirait les obstacles à l’exploitation des vulnérabilités d’un jour lorsque les coûts du LLM baisseraient. Auparavant, il s’agissait d’un processus manuel. Si les LLM deviennent suffisamment bon marché, ce processus deviendra probablement plus automatisé.

Dans quelle mesure GPT-4 réussit-il à détecter et à exploiter de manière autonome les vulnérabilités ?

GPT-4 peut exploiter de manière autonome les vulnérabilités d’un jour

L’agent GPT-4 a été capable d’exploiter de manière autonome les vulnérabilités d’un jour Web et non Web, même celles qui ont été publiées dans la base de données Common Vulnerabilities and Exposures après la date limite des connaissances du modèle du 26 novembre 2023, démontrant ainsi ses capacités impressionnantes.

“Dans nos expériences précédentes, nous avons constaté que GPT-4 est excellent pour planifier et suivre un plan, nous n’avons donc pas été surpris”, a déclaré Kang à TechRepublic.

VOIR : Aide-mémoire GPT-4 : Qu’est-ce que GPT-4 et de quoi est-il capable ?

L’agent GPT-4 de Kang avait accès à Internet et, par conséquent, à toute information publiquement disponible sur la manière dont il pourrait être exploité. Cependant, il a expliqué que, sans une IA avancée, les informations ne seraient pas suffisantes pour diriger un agent vers une exploitation réussie.

“Nous utilisons “autonome” dans le sens où GPT-4 est capable d’élaborer un plan pour exploiter une vulnérabilité”, a-t-il déclaré à TechRepublic. « De nombreuses vulnérabilités du monde réel, comme ACIDRain – qui a causé plus de 50 millions de dollars de pertes réelles – disposent d’informations en ligne. Pourtant, les exploiter n’est pas anodin et, pour un humain, nécessite quelques connaissances en informatique.

Sur les 15 vulnérabilités d’une journée présentées à l’agent GPT-4, seules deux n’ont pas pu être exploitées : Iris XSS et Hertzbeat RCE. Les auteurs ont émis l’hypothèse que cela était dû au fait que l’application Web Iris est particulièrement difficile à naviguer et que la description de Hertzbeat RCE est en chinois, ce qui pourrait être plus difficile à interpréter lorsque l’invite est en anglais.

GPT-4 ne peut pas exploiter de manière autonome les vulnérabilités du jour zéro

Alors que l’agent GPT-4 a eu un taux de réussite phénoménal de 87 % avec l’accès aux descriptions des vulnérabilités, ce chiffre est tombé à seulement 7 % lorsqu’il ne l’a pas fait, ce qui montre qu’il n’est actuellement pas capable d’exploiter les vulnérabilités « zéro jour ». Les chercheurs ont écrit que ce résultat démontre à quel point le LLM est « beaucoup plus capable d’exploiter les vulnérabilités que de les trouver ».

Il est moins coûteux d’utiliser GPT-4 pour exploiter les vulnérabilités qu’un pirate informatique humain

Les chercheurs ont déterminé que le coût moyen d’une exploitation réussie de GPT-4 était de 8,80 dollars par vulnérabilité, tandis que l’emploi d’un testeur d’intrusion humain coûterait environ 25 dollars par vulnérabilité si cela leur prenait une demi-heure.

Alors que l’agent LLM est déjà 2,8 fois moins cher que la main-d’œuvre humaine, les chercheurs s’attendent à ce que les coûts de fonctionnement associés au GPT-4 diminuent encore, le GPT-3.5 étant devenu plus de trois fois moins cher en un an seulement. “Les agents LLM sont également trivialement évolutifs, contrairement au travail humain”, ont écrit les chercheurs.

GPT-4 prend de nombreuses actions pour exploiter de manière autonome une vulnérabilité

D’autres conclusions incluent qu’un nombre important de vulnérabilités nécessitaient de nombreuses actions pour être exploitées, certaines jusqu’à 100. Étonnamment, le nombre moyen d’actions entreprises lorsque l’agent avait accès aux descriptions et lorsqu’il n’y avait pas accès ne différait que marginalement, et GPT- 4 a en fait fait moins de pas dans ce dernier paramètre Zero Day.

Kang a spéculé à TechRepublic : “Je pense que sans la description CVE, GPT-4 abandonne plus facilement car il ne sait pas quel chemin prendre.”

Plus de couverture sur l’IA à lire absolument

Comment les capacités d’exploitation des vulnérabilités des LLM ont-elles été testées ?

Les chercheurs ont d’abord collecté un ensemble de données de référence de 15 vulnérabilités réelles d’une journée dans les logiciels à partir de la base de données CVE et d’articles universitaires. Ces vulnérabilités reproductibles et open source comprenaient des vulnérabilités de sites Web, des vulnérabilités de conteneurs et des packages Python vulnérables, et plus de la moitié ont été classées comme étant de gravité « élevée » ou « critique ».

Liste des 15 vulnérabilités fournies à l’agent LLM et leurs descriptions. Image : Fang R et coll.

Ensuite, ils ont développé un agent LLM basé sur le framework d’automatisation ReAct, ce qui signifie qu’il pourrait raisonner sur sa prochaine action, construire une commande d’action, l’exécuter avec l’outil approprié et la répéter dans une boucle interactive. Les développeurs n’ont eu besoin d’écrire que 91 lignes de code pour créer leur agent, démontrant à quel point il est simple à mettre en œuvre.

Schéma système de l’agent LLM. Image : Fang R et coll.

Le modèle de langage de base pourrait être alterné entre GPT-4 et ces autres LLM open source :

  • GPT-3.5.
  • OuvertHermes-2.5-Mistral-7B.
  • Chat Lama-2 (70B).
  • Discussion LLaMA-2 (13B).
  • Discussion LLaMA-2 (7B).
  • Instruction Mixtral-8x7B.
  • Mistral (7B) Instruire v0.2.
  • Nous Hermes-2 Yi 34B.
  • OpenChat 3.5.

L’agent était équipé des outils nécessaires pour exploiter de manière autonome les vulnérabilités des systèmes cibles, comme des éléments de navigation Web, un terminal, des résultats de recherche Web, des capacités de création et d’édition de fichiers et un interpréteur de code. Il pourrait également accéder aux descriptions des vulnérabilités de la base de données CVE pour émuler le paramètre d’une journée.

Ensuite, les chercheurs ont fourni à chaque agent une invite détaillée qui l’a encouragé à faire preuve de créativité, de persévérance et à explorer différentes approches pour exploiter les 15 vulnérabilités. Cette invite se composait de 1 056 « jetons » ou unités individuelles de texte telles que des mots et des signes de ponctuation.

Les performances de chaque agent ont été mesurées en fonction de sa réussite à exploiter les vulnérabilités, de la complexité de la vulnérabilité et du coût en dollars de l’effort, en fonction du nombre de jetons entrés et sortis et des coûts de l’API OpenAI.

VOIR : Le magasin GPT d’OpenAI est désormais ouvert aux créateurs de chatbots

L’expérience a également été répétée lorsque l’agent n’a pas reçu de descriptions des vulnérabilités pour émuler un environnement Zero Day plus difficile. Dans ce cas, l’agent doit à la fois découvrir la vulnérabilité puis l’exploiter avec succès.

Parallèlement à l’agent, les mêmes vulnérabilités ont été fournies aux scanners de vulnérabilités ZAP et Metasploit, tous deux couramment utilisés par les testeurs d’intrusion. Les chercheurs voulaient comparer leur efficacité dans l’identification et l’exploitation des vulnérabilités des LLM.

En fin de compte, il a été constaté que seul un agent LLM basé sur GPT-4 pouvait trouver et exploiter les vulnérabilités d’un jour, c’est-à-dire lorsqu’il avait accès à leurs descriptions CVE. Tous les autres LLM et les deux scanners avaient un taux de réussite de 0 % et n’ont donc pas été testés avec des vulnérabilités zero-day.

Pourquoi les chercheurs ont-ils testé les capacités d’exploitation des vulnérabilités des LLM ?

Cette étude a été menée pour combler le manque de connaissances concernant la capacité des LLM à exploiter avec succès les vulnérabilités d’un jour des systèmes informatiques sans intervention humaine.

Lorsque des vulnérabilités sont divulguées dans la base de données CVE, l’entrée ne décrit pas toujours comment elles peuvent être exploitées ; par conséquent, les acteurs malveillants ou les testeurs d’intrusion qui cherchent à les exploiter doivent le résoudre eux-mêmes. Les chercheurs ont cherché à déterminer la faisabilité de l’automatisation de ce processus avec les LLM existants.

VOIR : Apprenez à utiliser l’IA pour votre entreprise

L’équipe de l’Illinois a déjà démontré les capacités de piratage autonome des LLM à travers des exercices de « capture du drapeau », mais pas dans les déploiements réels. D’autres travaux se sont principalement concentrés sur l’IA dans le contexte du « développement humain » de la cybersécurité, par exemple, où les pirates sont assistés par un chatbot alimenté par GenAI.

Kang a déclaré à TechRepublic : « Notre laboratoire se concentre sur la question académique de savoir quelles sont les capacités des méthodes d’IA de pointe, y compris les agents. Nous nous sommes récemment concentrés sur la cybersécurité en raison de son importance.

OpenAI a été contacté pour commentaires.

2024-04-26 03:33:45
1714094847


#GPT4 #dOpenAI #peut #exploiter #manière #autonome #des #vulnérabilités #dun #jour

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.