Baidu empêche Google et Bing de récupérer du contenu en raison de la demande de données utilisées dans des projets d’IA

Baidu empêche Google et Bing de récupérer du contenu en raison de la demande de données utilisées dans des projets d’IA

Chinois Internet géant de la recherche Baidu semble avoir commencé à bloquer les moteurs de recherche en ligne d’Alphabet Google et Bing de Microsoft en récupérant du contenu provenant du service de type Wikipédia de l’entreprise continentale, selon une enquête du Post.

Une récente mise à jour du fichier robots.txt de Baidu Baike – un fichier qui indique aux robots des moteurs de recherche à quels localisateurs de ressources uniformes, communément appelés adresses Web, sont accessibles à partir d’un site – a complètement bloqué la capacité des robots Googlebot et Bingbot à indexer le contenu de la plateforme chinoise.

Cette mise à jour semble avoir été effectuée le 8 août, selon les archives du service d’archives Internet Wayback Machine. Elle a également montré que plus tôt dans la journée, Baidu Baike autorisait toujours Google et Bing à parcourir et indexer son référentiel en ligne de près de 30 millions d’entrées, avec seulement une partie de son site Web désignée comme interdite.

Vous avez des questions sur les sujets et les tendances les plus importants du monde entier ? Obtenez les réponses avec Connaissances SCMPnotre nouvelle plateforme de contenu organisé avec des explications, des FAQ, des analyses et des infographies proposées par notre équipe primée.

Cette initiative montre Pékin– Les efforts accrus de Baidu pour protéger ses actifs en ligne, alors que la demande de vastes volumes de données a augmenté pour la formation et la construction intelligence artificielle Modèles et applications (IA).

Cette décision fait suite à celle prise en juillet par le forum et plateforme d’agrégation d’informations sociales américain Reddit, qui a bloqué l’indexation de ses publications et discussions en ligne par plusieurs moteurs de recherche, à l’exception de Google. Google a conclu un accord de plusieurs millions de dollars avec Reddit qui lui donne le droit d’exploiter les données de la plateforme de médias sociaux pour former ses services d’IA.

Depuis qu’OpenAI a publié ChatGPT le 30 novembre 2022, les principales plateformes de recherche Google et Microsoft ont cherché à obtenir davantage de données à utiliser dans leurs propres systèmes d’intelligence artificielle générative. Photo : Shutterstock alt=Depuis qu’OpenAI a publié ChatGPT le 30 novembre 2022, les principales plateformes de recherche Google et Microsoft ont cherché à obtenir davantage de données à utiliser dans leurs propres systèmes d’intelligence artificielle générative. Photo : Shutterstock>

Même L’année dernière, Microsoft a menacé de couper l’accès à ses données de recherche sur Internet, qu’elle concède sous licence à des opérateurs de moteurs de recherche concurrents, s’ils ne cessaient pas de les utiliser comme base pour leurs chatbots et autres IA générative (GenAI), selon un rapport de Bloomberg.

En comparaison, la version chinoise de l’encyclopédie en ligne Wikipédia compte à ce jour 1,43 million d’entrées, qui sont rendues accessibles aux robots des moteurs de recherche.

L’histoire continue

Suite à la mise à jour du fichier robots.txt de Baidu Baike, l’enquête menée par le Post sur Google et Bing vendredi a révélé que de nombreuses entrées – probablement issues d’anciens contenus en cache – du service de type Wikipédia apparaissent toujours dans les résultats des plateformes de recherche américaines.

Les représentants de Baidu, Google et Microsoft n’ont pas immédiatement répondu aux demandes de commentaires vendredi.

Plus de deux ans après le lancement révolutionnaire de OpenAI‘s ChatGPTde nombreux grands développeurs d’IA à travers le monde concluent des accords avec des éditeurs de contenu pour accéder à du contenu de qualité pour leurs projets GenAI.

GenAI fait référence aux algorithmes et services, tels que ChatGPT, qui sont utilisés pour créer de nouveaux contenus, notamment de l’audio, du code, des images, du texte, des simulations et des vidéos.

OpenAI, par exemple, a conclu en juin un accord avec le magazine d’information américain Time qui lui donne accès à tout le contenu archivé de plus de 100 ans d’histoire de la publication.

Cet article a été publié à l’origine dans le Le journal South China Morning Post (SCMP)la voix la plus autorisée à rendre compte de la Chine et de l’Asie depuis plus d’un siècle. Pour plus d’histoires du SCMP, veuillez consulter le Application SCMP ou visitez le SCMP Facebook et Gazouillement pages. Copyright © 2024 South China Morning Post Publishers Ltd. Tous droits réservés.

Copyright (c) 2024. South China Morning Post Publishers Ltd. Tous droits réservés.

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.