2024-08-31 14:02:19
De nombreuses applications GPT de la boutique GPT d’OpenAI collectent des données et facilitent le suivi en ligne en violation des politiques d’OpenAI, affirment les chercheurs.
Des chercheurs de l’Université de Washington à St. Louis, dans le Missouri, ont récemment analysé près de 120 000 GPT et plus de 2 500 actions (services intégrés) sur une période de quatre mois et ont découvert une collecte de données extensive qui est contraire aux règles d’OpenAI et souvent insuffisamment documentée dans les politiques de confidentialité.
Les chercheurs – Evin Jaff, Yuhao Wu, Ning Zhang et Umar Iqbal – décrivent leurs découvertes dans un papier intitulé « Exposition des données à partir des applications LLM : une enquête approfondie sur les GPT d’OpenAI. »
« Nos mesures indiquent que les divulgations pour la plupart des types de données collectées sont omises dans les politiques de confidentialité, avec seulement 5,8 % des actions divulguant clairement leurs pratiques de collecte de données », affirment les auteurs.
Les données collectées comprennent des informations sensibles telles que les mots de passe. Et les GPT qui le font incluent souvent des actions pour le suivi et l’analyse des publicités, une source courante de problèmes de confidentialité dans les applications mobiles et les écosystèmes Web.
« Notre étude identifie plusieurs problèmes de confidentialité et de sécurité au sein de l’écosystème OpenAI GPT, et des problèmes similaires ont également été notés par d’autres », a déclaré Yuhao Wu, doctorant en troisième année en informatique à l’Université de Washington. Le registre.
« Bien que certains de ces problèmes aient été résolus après avoir été mis en évidence, l’existence de tels problèmes suggère que certaines décisions de conception n’ont pas suffisamment donné la priorité à la sécurité et à la confidentialité. De plus, même si OpenAI a mis en place des politiques, il y a un manque de mise en œuvre cohérente, ce qui exacerbe ces préoccupations. »
La boutique OpenAI, qui ouvert officiellement en janvierhéberge des GPT, qui sont des modèles de transformateurs pré-entraînés (GPT) génératifs basés sur ChatGPT d’OpenAI. La plupart des trois millions de GPT environ de la boutique ont été personnalisés par des développeurs tiers pour exécuter une fonction spécifique comme l’analyse de données Excel ou l’écriture de code.
Une petite partie des GPT (4,6 pour cent des plus de 3 millions) mettent en œuvre Actesqui permettent de traduire les données structurées des services API dans le langage vernaculaire d’un modèle qui accepte et émet du langage naturel. Les actions « convertissent le texte en langage naturel en schéma json requis pour un appel d’API », comme le dit OpenAI.
La plupart des actions (82,9 %) incluses dans les GPT étudiées proviennent de tiers. Et ces tiers semblent pour la plupart peu préoccupés par la confidentialité ou la sécurité des données.
Au moins 1 % des GPT étudiés collectent des mots de passe, observent les auteurs, bien qu’apparemment pour des raisons de commodité (pour permettre une connexion facile) plutôt qu’à des fins malveillantes.
Cependant, les auteurs soutiennent que même cette capture non conflictuelle de mots de passe augmente le risque de compromission car ces mots de passe peuvent être intégrés aux données de formation.
« Nous avons identifié des GPT qui capturaient les mots de passe des utilisateurs », a expliqué Wu. « Nous n’avons pas cherché à savoir s’ils avaient été utilisés de manière abusive ou capturés avec l’intention d’en abuser. Qu’il y ait ou non abus intentionnel, les mots de passe en texte clair et les clés API capturés de cette manière constituent toujours des risques de sécurité majeurs.
« Dans le cas des LLM, les mots de passe en texte clair dans les conversations risquent d’être inclus dans les données de formation, ce qui pourrait entraîner une fuite accidentelle. Les services sur OpenAI qui souhaitent utiliser des comptes ou des mécanismes similaires sont autorisés à utiliser OAuth pour qu’un utilisateur puisse se connecter à un compte. Nous considérons donc qu’il s’agit au minimum d’une évasion/de mauvaises pratiques de sécurité de la part du développeur. »
Et c’est encore pire. Selon l’étude, « comme les actions s’exécutent dans l’espace mémoire partagé des GPT, elles ont un accès illimité aux données des autres, ce qui leur permet d’y accéder (et aussi potentiellement d’influencer l’exécution des autres). »
Ensuite, les actions sont intégrées dans plusieurs GPT, ce qui leur permet – potentiellement – de collecter des données sur plusieurs applications et de les partager avec d’autres actions. C’est exactement le type d’accès aux données qui a porté atteinte à la confidentialité des utilisateurs d’applications mobiles et Web.
Les chercheurs observent qu’OpenAI semble prêter attention aux GPT non conformes en se basant sur la suppression de 2 883 GPT au cours de la période d’exploration de quatre mois – du 8 février au 3 mai 2024.
Néanmoins, ils concluent que les efforts d’OpenAI pour maintenir le contrôle de la croissance de son écosystème sont insuffisants. Ils soutiennent que si l’entreprise exige que les GPT se conforment aux lois applicables en matière de confidentialité des données, elle ne fournit pas aux GPT les contrôles nécessaires pour que les utilisateurs puissent exercer leurs droits à la confidentialité et elle n’isole pas suffisamment l’exécution des actions pour éviter d’exposer les données entre différentes actions intégrées dans un GPT.
« Nos résultats montrent que les applications et les tiers collectent des données excessives », a déclaré Wu. « Malheureusement, il s’agit d’une pratique courante sur de nombreuses plateformes existantes, telles que les plateformes mobiles et Web. Nos recherches montrent que ces pratiques sont également de plus en plus répandues sur les plateformes émergentes basées sur LLM. C’est pourquoi nous n’avons pas fait rapport à OpenAI. »
« Dans les cas où nous avons découvert des pratiques pour lesquelles les développeurs auraient pu prendre des mesures, nous les avons signalés. Par exemple, dans le cas d’un GPT, nous avons suspecté qu’il n’était peut-être pas hébergé par le service réel qu’il prétend être, nous l’avons donc signalé au bon service pour vérification. »
OpenAI n’a pas répondu à une demande de commentaire. ®
#Les #applications #GPT #divulguent #pas #collecte #données #selon #une #étude #Register
1725108223