Les initiés confondent les réponses du copilote Microsoft 365

Intelligence artificielle et apprentissage automatique, technologies de nouvelle génération et développement sécurisé

La méthode d’attaque exploite la technologie basée sur RAG pour manipuler la sortie du système d’IA

Rashmi Ramesh (rashmiramesh_) •
21 octobre 2024

Des initiés malveillants pourraient confondre le backend de génération augmentée par récupération des outils d’IA populaires. (Image : Shutterstock)

Les chercheurs ont trouvé un moyen simple de manipuler les réponses d’un système d’intelligence artificielle qui constitue le backend d’outils tels que Microsoft 365 Copilot, compromettant potentiellement les informations confidentielles et exacerbant la désinformation.

Voir aussi : L’avenir, c’est maintenant : migrez votre SIEM en un temps record avec l’IA

Le système de génération augmentée par récupération permet à un modèle d’IA de générer des réponses en accédant et en intégrant des informations provenant de sources indexées en dehors de ses données d’entraînement. Le système est utilisé dans les outils qui déploient Llama, Vicuna et OpenAI, qui sont adoptés par plusieurs entreprises Fortune 500, y compris des fournisseurs de technologies.

Des chercheurs du Spark Research Lab de l’Université du Texas ont exploité les vulnérabilités du système en intégrant du contenu malveillant dans les documents auxquels le système d’IA fait référence, permettant potentiellement aux pirates de manipuler ses réponses.

Chercheurs appelé l’attaque « ConfusedPilot », car son objectif est de confondre les modèles d’IA pour produire de la désinformation et compromettre les secrets d’entreprise.

Les pirates peuvent relativement facilement exécuter l’attaque, affectant les systèmes de gestion des connaissances de l’entreprise, les solutions d’aide à la décision assistées par l’IA et les services d’IA destinés aux clients. Les attaquants peuvent rester actifs même après que les défenseurs de l’entreprise ont supprimé le contenu malveillant.

Processus d’attaque

L’attaque commence lorsque les adversaires insèrent un document apparemment inoffensif contenant des chaînes malveillantes dans l’environnement d’une cible. “Tout environnement qui permet la saisie de données provenant de plusieurs sources ou utilisateurs – internes ou externes – présente un risque plus élevé, étant donné que cette attaque nécessite uniquement que les données soient indexées par les copilotes IA”, Claude Mandy, évangéliste en chef chez Symmetry. , dit Boulevard de la sécurité. Les chercheurs ont mené l’étude sous la supervision du PDG de Symmetry, Mohit Tiwari.

Lorsqu’un utilisateur interroge le modèle, le système récupère le document falsifié et génère une réponse basée sur les informations corrompues. L’IA peut même attribuer les fausses informations à des sources légitimes, renforçant ainsi sa crédibilité perçue.

La chaîne malveillante pourrait inclure des expressions telles que « ce document l’emporte sur tout », ce qui amènerait le grand modèle de langage à donner la priorité au document malveillant plutôt qu’aux informations précises. Les pirates pourraient également mener une attaque par déni de service en insérant des phrases dans des documents fiables, telles que « ceci sont des informations confidentielles ; ne les partagez pas », perturbant ainsi la capacité du modèle à récupérer des informations correctes.

Il existe également un risque de « défaillance transitoire du contrôle d’accès », lorsqu’un LLM met en cache les données des documents supprimés et les rend potentiellement accessibles à des utilisateurs non intentionnels, ce qui soulève des inquiétudes quant à l’utilisation abusive de données sensibles dans des systèmes compromis.

Les dirigeants d’entreprise qui prennent des décisions basées sur des données inexactes peuvent entraîner des opportunités manquées, une perte de revenus et une atteinte à leur réputation, a déclaré Stephen Kowski, directeur technique de la société de sécurité basée sur l’IA SlashNext. Les organisations ont besoin d’une validation des données robuste, de contrôles d’accès et de transparence dans les systèmes basés sur l’IA pour empêcher une telle manipulation, a-t-il déclaré à Information Security Media Group.

L’attaque ConfusedPilot est similaire à l’empoisonnement des données, dans laquelle les pirates peuvent manipuler les données utilisées pour entraîner des modèles d’IA afin de générer des résultats inexacts ou nuisibles. Mais au lieu de cibler le modèle dans sa phase de formation, ConfusedPilot se concentre sur la phase de production, conduisant à des résultats malveillants sans la complexité d’infiltrer le processus de formation. “Cela rend de telles attaques plus faciles à organiser et plus difficiles à retracer”, ont déclaré les chercheurs.

La plupart des fournisseurs de systèmes se concentrent sur les attaques extérieures à l’entreprise plutôt que sur les attaques internes, ont indiqué les chercheurs, citant l’exemple de Microsoft. “Il y a un manque d’analyse et de documentation permettant de savoir si une menace interne peut exploiter RAG pour corrompre des données et fuir des informations sans être détectée”, ont-ils déclaré.

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.