2024-08-28 06:20:00
Le lancement de ChatGPT en novembre 2022 a étonné le monde entier par la qualité de son écriture dans n’importe quelle langue. Ce succès cache le fait qu’un modèle qui sait répondre à n’importe quelle question cache plus de valeurs derrière une grammaire ou une syntaxe correcte. Au fil du temps, de plus en plus de travaux apparaissent qui soulignent l’importance de former des modèles avec des langages et des valeurs différents : « Nous avons besoin de l’infrastructure technique pour encourager la formation de modèles d’IA avec des données culturelles françaises et européennes. » dit un rapport du gouvernement français de mars, qui insiste sur le fait que sans sa propre IA, l’Europe risque de « perdre le contrôle de l’avenir ».
Il n’est pas surprenant que le gouvernement français accorde de l’importance aux données culturelles. « Quand on parle de modèles d’espagnol, on se réfère au linguistique, mais les modèles de langage incluent une position géographique, des valeurs. Des modèles comme ChatGPT ont des valeurs similaires à celles d’un homme d’une trentaine d’années, blanc, allé à l’université, né sur la côte ouest des États-Unis », explique Luciana Benotti, linguiste informatique à l’Université nationale de Córdoba (Argentine). ).
Pour élargir ce panorama anglocentrique, le gouvernement espagnol a annoncé son projet de modèle linguistique Alia. Au moins 20 % du total des textes avec lesquels vous vous entraînez correspondront à des langues parlées en Espagne, tandis que ChatGPT et ses concurrents n’atteignent pas 5 % en espagnol. Cela rendra sa fiabilité plus grande pour les hispanophones, puisque les problèmes typiques tels que les préjugés seront corrigés : l’utilisation du genre masculin et féminin est différente en espagnol par rapport à l’anglais, par exemple.
Le Centre national d’intelligence artificielle du Chili travaille également sur « un grand modèle de langage ouvert des Latino-Américains pour les Latino-Américains », actuellement appelé Latin LLM. Même si la capacité de calcul est moindre que dans le modèle espagnol, l’objectif est similaire, plus centré sur la région. Il existe des associations de spécialistes bénévoles qui travaillent également à obtenir de meilleurs corpus et ressources en espagnol.
Le modèle Alia est plus proche et plus utile pour les hispanophones que pour ceux formés principalement en anglais : « Il existe un énorme écart entre la quantité de ressources et les modèles linguistiques pour l’anglais et l’espagnol. Se soutenir mutuellement en tant que pays hispanophones nous aidera à avancer plus rapidement », déclare Dunstan. Mais depuis l’Espagne, la langue continue d’être perçue comme quelque chose de différent : « Le RAE collecte 80 % des mots d’Espagne et 20 % d’Amérique latine, c’est-à-dire que nous sommes sous-représentés », explique Jocelyn Dunstan, chercheur à l’Université pontificale catholique. du Chili.
Le poids de l’espagnol
L’Amérique latine a tendance à considérer les innovations technologiques de loin. Mais avec cette nouveauté il dispose d’un outil de base qui lui est proche : l’espagnol. « Nous ne sommes jamais le marché principal ici. “Les gens pensent que la puissance de ChatGPT est incroyable car il leur donne, par exemple, un menu avec des calories et ils pensent que cela peut tout résoudre”, ajoute Dunstan, et raconte le cas d’un projet avec le langage Rapa Nui avec ChatGPT, en il semblait qu’il le parlait, mais c’était irrégulier ou il inventait des phonèmes.
Une façon de comprendre la distance entre ce qui se passe aux États-Unis et en Amérique latine dans ce secteur est l’association qui rassemble des universitaires dédiés à la linguistique computationnelle. Ils font tous partie du NACL (North American Computational Linguists). Lors de la dernière réunion du NACL, il y avait environ 50 chercheurs latino-américains et 50 autres Latinos américains, sur un total d’environ 2 000 participants.
Cette énorme différence influence évidemment le fait que la langue la plus analysée dans les articles scientifiques est l’anglais. « Lorsqu’un article sur le traitement du langage naturel ne fonctionne qu’en espagnol, il est très difficile d’être accepté lors d’une conférence de haut niveau. Il devrait s’agir d’une étude multilingue et comprendra l’anglais, l’italien, le français et d’autres. Cette exigence ne s’applique pas à l’anglais, où la quantité de texte est également énorme. Les personnes qui travaillent en anglais ne peuvent le faire que dans cette langue et personne ne s’en plaint », déclare Dunstan.
Données bon marché et anciennes
Benotti travaille en collaboration avec la Fondation Vía Libre et avec le financement international de la Fondation Mozilla pour expliquer comment fonctionnent les biais et les risques de ces modèles en fonction de leur origine et de leur formation : « Étant donné que les modèles sont formés avec de grands volumes de données bon marché et anciennes provenant de Internet , absorbe souvent les préjugés existants. Cela peut conduire à des résultats qui renforcent des stéréotypes tels que « les Mapuches sont des ivrognes » ou « les femmes vont à la cuisine ». Il y a beaucoup de travail dans notre domaine de recherche pour réduire ces biais et aligner ces modèles dans une perspective de valeurs du Nord », explique ce linguiste.
Avec les variantes de l’espagnol en Amérique latine, il arrive souvent qu’elles soient généralement moins emballées. Pour certains, il peut paraître étrange qu’un modèle linguistique les utilise sans tenir compte du contexte : « Nous sommes très habitués à ce que l’espagnol standard soit ce qui est bien, et utiliser ces mots plus régionaux est mal vu. Utiliser un langage plus neutre semble lui conférer une plus grande autorité et plus de connaissances », explique Benotti.
Ces dernières années, des recherches ont été menées sur la manière dont ces modèles répondent à des questions provenant de différents domaines, quel type de mots ils utilisent ou ce qu’ils comprennent des différents dialectes d’une grande langue ou des détails de langues plus petites. C’est un travail naissant. Dunstan vient par exemple de terminer un article avec des chercheurs du BSC dans lequel ils ont examiné si les modèles développés en Espagne sont utiles au contexte chilien, mais dans quelque chose de très spécifique : le langage oncologique. Ils ont vu qu’il pouvait être utilisé, mais avec une réserve : les rapports d’oncologie ont tendance à être rédigés plus calmement que dans d’autres spécialités. “Cela n’implique pas que les textes d’urgence ou abrégés fonctionneront de la même manière”, déclare Dunstan.
Vous pouvez suivre Technologie EL PAÍS dans Facebook et X ou inscrivez-vous ici pour recevoir notre newsletter semestrielle.
#Pourquoi #lespagnol #besoin #ses #propres #ChatGPT #les #valeurs #dun #homme #blanc #diplômé #luniversité #côte #ouest #des #ÉtatsUnis #Technologie
1724819154