L’offre de données Internet pour la formation des modèles linguistiques d’IA pourrait se tarir

Home » Divertissement » L’offre de données Internet pour la formation des modèles linguistiques d’IA pourrait se tarir

2024-06-07 03:52:02

Les systèmes d’intelligence artificielle comme ChatGPT pourraient bientôt manquer de l’élément qui les rend de plus en plus intelligents : les milliards de mots que les gens ont écrits et partagés sur Internet.

Une nouvelle étude publiée jeudi par le groupe de recherche Epoch AI prédit que les entreprises technologiques épuiseront l’offre de données de formation accessibles au public pour les modèles linguistiques d’IA entre 2026 et 2032.

Tamay Besiroglu, l’un des auteurs de l’étude, compare le phénomène à une « ruée vers l’or » qui épuise des ressources naturelles limitées, et affirme que le domaine de l’IA pourrait avoir du mal à maintenir son rythme de progrès actuel une fois les réserves d’écriture générées par l’homme épuisées.

À court terme, des entreprises technologiques comme OpenAI, le développeur de ChatGPT et Google se démènent pour sécuriser, et parfois payer, des sources de données de haute qualité pour former leurs grands modèles de langage d’IA. Pour ce faire, ils ont par exemple signé des accords pour profiter du flux constant de phrases provenant des forums Reddit et des médias.

À long terme, il n’y aura pas assez de nouveaux blogs, d’articles de presse et de commentaires sur les réseaux sociaux pour maintenir la trajectoire actuelle de développement de l’IA, obligeant les entreprises à recourir à des données sensibles désormais considérées comme privées, comme les e-mails ou les SMS, ou à s’appuyer sur des « données synthétiques » générées par les chatbots eux-mêmes, moins fiables.

“Il y a ici un sérieux goulot d’étranglement”, déclare Besiroglu. « Si vous commencez à vous heurter à ces limitations concernant la quantité de données dont vous disposez, vous ne pouvez plus faire évoluer vos modèles efficacement. Et l’expansion des modèles a probablement été le moyen le plus important d’augmenter leurs capacités et d’améliorer la qualité de leurs résultats.

Les chercheurs ont fait leurs premières prédictions il y a deux ans, peu avant le lancement de ChatGPT, dans un document de travail dans lequel ils prévoyaient que les données textuelles de haute qualité seraient épuisées d’ici 2026. Beaucoup de choses ont changé depuis, comme de nouvelles techniques qui permettent aux chercheurs en IA de mieux utiliser les données dont ils disposent déjà et parfois de se « surentraîner » plusieurs fois avec les mêmes sources.

Mais il y a des limites, et suite à de nouvelles recherches, Epoch prédit désormais que les données textuelles publiques seront épuisées dans les deux à huit prochaines années.

La dernière étude de l’équipe a été évaluée par des pairs et sera présentée lors de la prochaine conférence internationale sur l’apprentissage automatique à Vienne, en Autriche. Epoch est un institut à but non lucratif parrainé par Rethink Priorities, basé à San Francisco, et financé par les partisans de l’altruisme efficace, un mouvement philanthropique qui a investi de l’argent pour atténuer les risques les plus graves liés à l’IA.

Besiroglu affirme que les chercheurs en IA ont réalisé il y a plus de dix ans qu’une expansion agressive de deux ingrédients clés – la puissance de calcul et les vastes banques de données d’Internet – pouvait améliorer considérablement les performances des systèmes d’IA.

Selon l’étude Epoch, la quantité de données textuelles introduites dans les modèles linguistiques de l’IA a augmenté de 2,5 fois par an, tandis que la puissance de calcul a quadruplé chaque année. La empresa matriz de Facebook, Meta Platforms, afirmó recientemente que la versión más grande de su modelo Llama 3 —que aún no ha salido al mercado— se ha entrenado con hasta 15 billones de tokens, cada uno de los cuales puede representar un fragmento de un mot.

Mais l’ampleur des goulots d’étranglement des données mérite de s’inquiéter est discutable.

«Je pense qu’il est important de garder à l’esprit que nous n’avons pas nécessairement besoin de former des modèles de plus en plus grands», déclare Nicolas Papernot, professeur agrégé de génie informatique à l’Université de Toronto et chercheur au Vector Institute for Artificial Intelligence, une organisation à but non lucratif. .

Papernot, qui n’a pas participé à l’étude Epoch, affirme que des systèmes d’IA plus performants peuvent également être créés en formant des modèles plus spécialisés sur des tâches spécifiques. Cependant, il craint que les systèmes d’IA générative soient formés sur les mêmes résultats qu’ils produisent, ce qui entraînerait une dégradation des performances connue sous le nom de « crash du modèle ».

La formation avec des données générées par l’IA est “comme ce qui se passe lorsque vous photocopiez une feuille de papier, puis photocopiez la photocopie. Certaines informations sont perdues”, explique Papernot. Non seulement cela, mais les recherches de Papernot ont également montré que cela peut augmenter l’intégration. d’erreurs, de préjugés et d’injustices déjà ancrés dans l’écosystème de l’information.

Si les phrases composées par des humains restent une source de données essentielle pour l’IA, les administrateurs des trésors les plus convoités – des sites Web comme Reddit et Wikipédia, ainsi que des éditeurs d’informations et de livres – ont été contraints de réfléchir à leur utilisation.

« C’est un problème intéressant que nous discutions des ressources naturelles au sujet des données créées par l’homme. “Je ne devrais pas en rire, mais je pense que c’est incroyable”, a déclaré Selena Deckelmann, directrice des produits et de la technologie à la Fondation Wikimedia, qui gère Wikipédia.

Bien que certaines entités aient tenté d’empêcher que leurs données soient utilisées pour entraîner l’IA – souvent après qu’elles aient déjà été utilisées sans compensation – Wikipédia a imposé peu de restrictions sur la manière dont les entreprises d’IA utilisent les articles rédigés par des bénévoles. Deckelmann espère néanmoins qu’il y aura toujours des incitations pour que les gens continuent à contribuer, en particulier lorsqu’une avalanche de « contenu indésirable » bon marché et généré automatiquement commence à polluer Internet.

Les entreprises d’IA doivent « veiller à ce que le contenu généré par l’homme continue d’exister et soit accessible », dit-il.

Du point de vue des développeurs d’IA, l’étude Epoch indique qu’il est « peu probable » que payer des millions d’humains pour générer le texte dont les modèles d’IA auront besoin soit un moyen rentable d’obtenir de meilleures performances techniques.

Alors qu’OpenAI commence à travailler sur la formation de la prochaine génération de ses grands modèles de langage GPT, le PDG Sam Altman a déclaré aux participants à un événement aux Nations Unies le mois dernier que la société avait déjà expérimenté « la génération d’un grand nombre de données synthétiques » pour la formation.

« Je pense qu’il faut des données de haute qualité. Il existe des données synthétiques de faible qualité. Il existe des données humaines de mauvaise qualité », a déclaré Altman. Mais il a également exprimé des réserves quant au recours excessif aux données synthétiques plutôt qu’à d’autres méthodes techniques pour améliorer les modèles d’IA.

“Il serait très étrange que la meilleure façon de former un modèle soit de générer, par exemple, 1 000 milliards de jetons de données synthétiques et de les renvoyer”, explique Altman. “D’une manière ou d’une autre, cela semble inefficace.”

___

Associated Press et OpenAI ont un accord de licence et de technologie qui permet à OpenAI d’accéder à certains fichiers texte d’AP.

#Loffre #données #Internet #pour #formation #des #modèles #linguistiques #dIA #pourrait #tarir
1717721661

Ursula von der Leyen échouera-t-elle au Parlement européen ?

2024-07-03 17:39:48 De tels changements ne sont pas inhabituels. Katarina Barley, la tête de liste du SPD

La Mostra Première Minas sélectionne 11 films qui seront projetés au cours de 6 séances gratuites et commentées en BH

La deuxième édition de Mostra Première Minas a sélectionné 11 films qui seront projetés au cours de

Un F16 s’est écrasé à Halkidiki, le pilote est sain et sauf

F-16 ©Eurokinissi ” )+(“arrêter\”> “).length); //déboguer le contenutts2=document.querySelector(“.entry-content.single-post-content”).innerHTML.substring( 0, document.querySelector(“.entry-content.single-post-content”).innerHTML.indexOf( “” )); contenttts2=contenttts2.substring(contenttts2.indexOf( “fa-stop\”> ” )+(“arrêter\”> “).length);

Nouvelles Du Monde

L’offre de données Internet pour la formation des modèles linguistiques d’IA pourrait se tarir

Related

Leave a Comment Cancel Reply

Ursula von der Leyen échouera-t-elle au Parlement européen ?

La Mostra Première Minas sélectionne 11 films qui seront projetés au cours de 6 séances gratuites et commentées en BH

Un F16 s’est écrasé à Halkidiki, le pilote est sain et sauf

Quelle est la vérité sur le report de la date de versement des salaires de retraite à juillet 2024 ?

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Comment trouver l’amour en 2022 ?

ADVERTISEMENT

Nouvelles Du Monde

L’offre de données Internet pour la formation des modèles linguistiques d’IA pourrait se tarir

Share this:

Related

Leave a Comment Cancel Reply

Ursula von der Leyen échouera-t-elle au Parlement européen ?

Share this:

La Mostra Première Minas sélectionne 11 films qui seront projetés au cours de 6 séances gratuites et commentées en BH

Share this:

Un F16 s’est écrasé à Halkidiki, le pilote est sain et sauf

Share this:

Quelle est la vérité sur le report de la date de versement des salaires de retraite à juillet 2024 ?

Share this:

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Comment trouver l’amour en 2022 ?

ADVERTISEMENT

Tags