Cloudflare lance une fonctionnalité pour empêcher les robots d’entreprise IA d’exécuter du « web scraping » sur les sites Web de leurs clients

2024-07-05 13:54:09

MADRID, 5 juillet (Portaltic/EP) –

Cloudflare a lancé une nouvelle fonction gratuite dans ses services Internet qui permet bloquer automatiquement les robots des sociétés d’intelligence artificielle (IA) qu’ils utilisent pour exécuter du « web scraping », afin de les empêcher de collecter des données sur les sites Internet de leurs clients.

Grâce aux progrès de l’IA générative, Il existe une demande croissante de contenu utilisé pour former des modèles ou exécuter des inférences.. Ainsi, l’une des méthodes utilisées par les entreprises pour obtenir de nouvelles données est ‘web scraping’ ou grattage de données un Internet.

Plus précisément, il s’agit d’un processus juridique dans lequel un un « logiciel » extrait le contenu HTML des sites Web pour filtrer leurs informations et les stockercollectant ainsi les données nécessaires à la formation des modèles d’IA.

Bien que certaines entreprises développant des outils basés sur cette technologie identifient les robots de web scraping qu’elles utilisent pour obtenir des données sur Internet, d’autres entreprises ne sont pas aussi transparentes. En ce sens, la firme américaine Cloudflare a déclaré que son Les clients ne veulent pas que des robots IA visitent leurs sites Web, en particulier « ceux qui le font de manière malhonnête ».

Afin d’offrir une solution à ce problème, l’entreprise axée sur les services de sécurité Internet a ajouté un nouvelle fonctionnalité gratuite à vos services avec laquelle bloquera automatiquement tous les robots IA qu’il identifie sur les sites Webafin qu’ils ne puissent pas effectuer le grattage de données susmentionné.

C’est ce qu’a annoncé Cloudflare dans un déclaration sur leur site Internetdans lequel il a exprimé son intention de préserver un Internet sûr pour les créateurs de contenu, empêcher que les données des sites Web de ses clients soient collectées et utilisées pour entraîner l’IA.

Comme vous l’avez précisé, il s’agit d’un outil qui fonctionne “d’un simple clic” et qui est Disponible pour tous les clients Cloudflarey compris ceux qui ont le niveau gratuit de votre service, comme votre application 1.1.1.1 à propos de sont Plateforme SASE & SSE.

Pour l’activer, entrez simplement dans la section « Bots » dans le menu « Sécurité » de votre service. Après cela, les utilisateurs doivent activer l’option ‘AI Scrapers and Trackers’qui commencera à empêcher les robots de récupérer du contenu pour des applications d’IA telles que la formation de modèles.

De même, Cloudflare a expliqué que cette fonctionnalité disparaîtrait mise à jour automatique pour ajouter de nouvelles traces de robots incriminés qui ont été identifiés comme des « robots d’exploration du Web » “Cela se fera en analysant le trafic sur son réseau, afin que l’entreprise puisse avoir une connaissance ‘complète’ de toute l’activité des trackers IA.

LES BOTS AI LES PLUS UTILISÉS ACTUELLEMENT

Parallèlement à cette nouvelle fonctionnalité, l’entreprise a également partagé certaines données enregistrées sur sa plateforme concernant l’utilisation de robots pour effectuer actuellement du « web scraping ».

Ainsi, il a indiqué que, selon son analyse, le les robots les plus utilisés dans leur réseau, ils ont été Bytespider de ByteDance -Société mère de TikTok-, Le robot Amazon d’Amazon, ClaudeBot de Claude et GPTBot de OpenAI. Parmi eux, le robot Bytespider a tenté d’accéder à 40,40 % des sites Web clients Cloudflare.

Juste derrière se trouve GPTBot, qui a accédé à 35,46 % des sites Web pour effectuer du grattage de données. De son côté, ClaudeBot chute à 11,17 pour cent des sites Internet auxquels il a eu accès.

Cependant, la société a averti que, malgré cette activité de robots, il est probable que de nombreux les clients “ne savent pas que les robots d’exploration IA les plus populaires explorent activement leurs sites Web“.

En fait, comme indiqué, en juin dernier, il a été identifié que les robots IA accédaient à environ 39 % du million de plus grandes propriétés sur Internet qui utilisent Cloudflare, mais seuls 2,98 % de ces sites Web ont pris des mesures pour bloquer ces demandes.

Avec tout cela, Cloudflare a assuré qu’il continuerait à travailler pour aider à maintenir Internet comme un lieu où Les créateurs de contenu « peuvent prospérer et conserver un contrôle total sur les modèles utilisés pour former ou exécuter des inférences avec leur contenu ».

Ce type d’initiatives est également mené par d’autres plateformes, telles que Reddit, qui a récemment annoncé son intention de mettre à jour son Protocole d’exclusion des robots (fichier robots.txt) pour bloquer l’accès des « robots » automatisés à vos données publiques et ainsi empêcher ce que l’on appelle le grattage de données.



#Cloudflare #lance #une #fonctionnalité #pour #empêcher #les #robots #dentreprise #dexécuter #web #scraping #sur #les #sites #Web #leurs #clients
1720340818

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.