Nouvelles Du Monde

L’offre de données Internet pour la formation des modèles linguistiques d’IA pourrait se tarir

L’offre de données Internet pour la formation des modèles linguistiques d’IA pourrait se tarir

2024-06-07 03:52:02

Les systèmes d’intelligence artificielle comme ChatGPT pourraient bientôt manquer de l’élément qui les rend de plus en plus intelligents : les milliards de mots que les gens ont écrits et partagés sur Internet.

Une nouvelle étude publiée jeudi par le groupe de recherche Epoch AI prédit que les entreprises technologiques épuiseront l’offre de données de formation accessibles au public pour les modèles linguistiques d’IA entre 2026 et 2032.

Tamay Besiroglu, l’un des auteurs de l’étude, compare le phénomène à une « ruée vers l’or » qui épuise des ressources naturelles limitées, et affirme que le domaine de l’IA pourrait avoir du mal à maintenir son rythme de progrès actuel une fois les réserves d’écriture générées par l’homme épuisées.

À court terme, des entreprises technologiques comme OpenAI, le développeur de ChatGPT et Google se démènent pour sécuriser, et parfois payer, des sources de données de haute qualité pour former leurs grands modèles de langage d’IA. Pour ce faire, ils ont par exemple signé des accords pour profiter du flux constant de phrases provenant des forums Reddit et des médias.

À long terme, il n’y aura pas assez de nouveaux blogs, d’articles de presse et de commentaires sur les réseaux sociaux pour maintenir la trajectoire actuelle de développement de l’IA, obligeant les entreprises à recourir à des données sensibles désormais considérées comme privées, comme les e-mails ou les SMS, ou à s’appuyer sur des « données synthétiques » générées par les chatbots eux-mêmes, moins fiables.

“Il y a ici un sérieux goulot d’étranglement”, déclare Besiroglu. « Si vous commencez à vous heurter à ces limitations concernant la quantité de données dont vous disposez, vous ne pouvez plus faire évoluer vos modèles efficacement. Et l’expansion des modèles a probablement été le moyen le plus important d’augmenter leurs capacités et d’améliorer la qualité de leurs résultats.

Lire aussi  La star de la WWE de 6 pieds 7 pouces réagit après le spectacle principal avec le "plus grand public de l'année"

Les chercheurs ont fait leurs premières prédictions il y a deux ans, peu avant le lancement de ChatGPT, dans un document de travail dans lequel ils prévoyaient que les données textuelles de haute qualité seraient épuisées d’ici 2026. Beaucoup de choses ont changé depuis, comme de nouvelles techniques qui permettent aux chercheurs en IA de mieux utiliser les données dont ils disposent déjà et parfois de se « surentraîner » plusieurs fois avec les mêmes sources.

Mais il y a des limites, et suite à de nouvelles recherches, Epoch prédit désormais que les données textuelles publiques seront épuisées dans les deux à huit prochaines années.

La dernière étude de l’équipe a été évaluée par des pairs et sera présentée lors de la prochaine conférence internationale sur l’apprentissage automatique à Vienne, en Autriche. Epoch est un institut à but non lucratif parrainé par Rethink Priorities, basé à San Francisco, et financé par les partisans de l’altruisme efficace, un mouvement philanthropique qui a investi de l’argent pour atténuer les risques les plus graves liés à l’IA.

Besiroglu affirme que les chercheurs en IA ont réalisé il y a plus de dix ans qu’une expansion agressive de deux ingrédients clés – la puissance de calcul et les vastes banques de données d’Internet – pouvait améliorer considérablement les performances des systèmes d’IA.

Selon l’étude Epoch, la quantité de données textuelles introduites dans les modèles linguistiques de l’IA a augmenté de 2,5 fois par an, tandis que la puissance de calcul a quadruplé chaque année. La empresa matriz de Facebook, Meta Platforms, afirmó recientemente que la versión más grande de su modelo Llama 3 —que aún no ha salido al mercado— se ha entrenado con hasta 15 billones de tokens, cada uno de los cuales puede representar un fragmento de un mot.

Mais l’ampleur des goulots d’étranglement des données mérite de s’inquiéter est discutable.

Lire aussi  Alerte orange et jaune émise dans cinq provinces en raison de fortes tempêtes

«Je pense qu’il est important de garder à l’esprit que nous n’avons pas nécessairement besoin de former des modèles de plus en plus grands», déclare Nicolas Papernot, professeur agrégé de génie informatique à l’Université de Toronto et chercheur au Vector Institute for Artificial Intelligence, une organisation à but non lucratif. .

Papernot, qui n’a pas participé à l’étude Epoch, affirme que des systèmes d’IA plus performants peuvent également être créés en formant des modèles plus spécialisés sur des tâches spécifiques. Cependant, il craint que les systèmes d’IA générative soient formés sur les mêmes résultats qu’ils produisent, ce qui entraînerait une dégradation des performances connue sous le nom de « crash du modèle ».

La formation avec des données générées par l’IA est “comme ce qui se passe lorsque vous photocopiez une feuille de papier, puis photocopiez la photocopie. Certaines informations sont perdues”, explique Papernot. Non seulement cela, mais les recherches de Papernot ont également montré que cela peut augmenter l’intégration. d’erreurs, de préjugés et d’injustices déjà ancrés dans l’écosystème de l’information.

Si les phrases composées par des humains restent une source de données essentielle pour l’IA, les administrateurs des trésors les plus convoités – des sites Web comme Reddit et Wikipédia, ainsi que des éditeurs d’informations et de livres – ont été contraints de réfléchir à leur utilisation.

« C’est un problème intéressant que nous discutions des ressources naturelles au sujet des données créées par l’homme. “Je ne devrais pas en rire, mais je pense que c’est incroyable”, a déclaré Selena Deckelmann, directrice des produits et de la technologie à la Fondation Wikimedia, qui gère Wikipédia.

Bien que certaines entités aient tenté d’empêcher que leurs données soient utilisées pour entraîner l’IA – souvent après qu’elles aient déjà été utilisées sans compensation – Wikipédia a imposé peu de restrictions sur la manière dont les entreprises d’IA utilisent les articles rédigés par des bénévoles. Deckelmann espère néanmoins qu’il y aura toujours des incitations pour que les gens continuent à contribuer, en particulier lorsqu’une avalanche de « contenu indésirable » bon marché et généré automatiquement commence à polluer Internet.

Lire aussi  Åsa Erlandsson de DN nominée deux fois pour le prix Wendela

Les entreprises d’IA doivent « veiller à ce que le contenu généré par l’homme continue d’exister et soit accessible », dit-il.

Du point de vue des développeurs d’IA, l’étude Epoch indique qu’il est « peu probable » que payer des millions d’humains pour générer le texte dont les modèles d’IA auront besoin soit un moyen rentable d’obtenir de meilleures performances techniques.

Alors qu’OpenAI commence à travailler sur la formation de la prochaine génération de ses grands modèles de langage GPT, le PDG Sam Altman a déclaré aux participants à un événement aux Nations Unies le mois dernier que la société avait déjà expérimenté « la génération d’un grand nombre de données synthétiques » pour la formation.

« Je pense qu’il faut des données de haute qualité. Il existe des données synthétiques de faible qualité. Il existe des données humaines de mauvaise qualité », a déclaré Altman. Mais il a également exprimé des réserves quant au recours excessif aux données synthétiques plutôt qu’à d’autres méthodes techniques pour améliorer les modèles d’IA.

“Il serait très étrange que la meilleure façon de former un modèle soit de générer, par exemple, 1 000 milliards de jetons de données synthétiques et de les renvoyer”, explique Altman. “D’une manière ou d’une autre, cela semble inefficace.”

___

Associated Press et OpenAI ont un accord de licence et de technologie qui permet à OpenAI d’accéder à certains fichiers texte d’AP.



#Loffre #données #Internet #pour #formation #des #modèles #linguistiques #dIA #pourrait #tarir
1717721661

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Un F16 s’est écrasé à Halkidiki, le pilote est sain et sauf

F-16 ©Eurokinissi ” )+(“arrêter\”> “).length); //déboguer le contenutts2=document.querySelector(“.entry-content.single-post-content”).innerHTML.substring( 0, document.querySelector(“.entry-content.single-post-content”).innerHTML.indexOf( “” )); contenttts2=contenttts2.substring(contenttts2.indexOf( “fa-stop\”> ” )+(“arrêter\”> “).length);

ADVERTISEMENT