Home » Sciences et technologies » Meta développe un traducteur simultané jusqu’à 101 langues avec une plus grande précision que les systèmes actuels | Technologie

Meta développe un traducteur simultané jusqu’à 101 langues avec une plus grande précision que les systèmes actuels | Technologie

by Nouvelles

2025-01-15 19:01:00

Meta veut retrouver l’ambition qui a animé la tour biblique qui, selon le récit du Genèse (11 : 1-9), l’humanité a voulu construire pour atteindre le ciel. « Ils forment un seul peuple et ils parlent tous la même langue. (…) Désormais, rien de ce qu’ils proposent ne sera impossible. Allez, descendons et confondons leur langue là-bas, pour que personne ne comprenne la langue de l’autre”, a réagi Jéhovah. L’entreprise de Mark Zuckerberg, la multinationale de Facebook, Instagram et WhatsApp, veut conjurer ce fléau et maintenir son leadership dans les communications personnelles, pour lesquelles elle a développé, tel que publié aujourd’hui mercredi par le magazine Natureun modèle d’intelligence artificielle (IA) capable de traduire instantanément les communications voix-parole ou texte-parole et vice versa dans jusqu’à 101 langues, en imitant la voix et le ton des interlocuteurs.

Le modèle, appelé SEAMLESSM4T, « surpasse les systèmes existants », selon la chercheuse principale Marta Costa-Jussà, de la division d’intelligence artificielle de Meta (FAIR, Foundational AI Research), et sera mis à la disposition du public tant qu’il ne sera pas utilisé à des fins commerciales. des fins commerciales.

SANS COUTURESM4T Il peut reconnaître jusqu’à 101 langues (écrites ou parlées) et est capable de les traduire en 36 au format vocal et 96 dans un fichier texte. Selon les résultats de Costa-Jussà, « il traduit avec 8 à 23 % de précision en plus [de acuerdo con la Bilingual Evaluation Understudy] que les systèmes existants, peut filtrer le bruit de fond [entre un 42% y un 66% más] et il s’adapte à la variation des voix.

Direction opposée aux réseaux

En revanche, alors que Meta a supprimé le système de vérification des données et de modération des contenus sur ses plateformes de communication, ouvrant ainsi la porte aux canulars, aux préjugés et aux discours de haine, avec le système de traduction simultanée, elle a opté pour la stratégie inverse et s’est concentrée sur celle-ci. l’« atténuation de la toxicité » qui peut être déduite du système lors de l’apprentissage automatique ou de la traduction. En ce sens, Olga Koreneva Antonovaprofesseur à la Faculté de Traduction et Interprétation de l’Université Pablo de Olavide (UPO), prévient que, par exemple, les traducteurs informatiques actuels « ne considèrent pas l’égalité des sexes » et ont tendance à remplacer le féminin par le masculin parce que les sources par celle qui est formé inclut déjà ce biais.

Meta considère la toxicité comme des grossièretés ou des résultats pouvant inciter à la haine, à la violence ou aux abus contre une personne ou un groupe (comme une religion, une race ou un sexe). Pour l’atténuer, elle a développé un outil, appelé Etox, spécialement formé aux éléments toxiques de la parole.

Une autre limitation que le nouveau système tente de surmonter est la rareté des langues de fonctionnement. Bien que plus de la moitié de l’humanité parle principalement une demi-douzaine de langues, la diversité est si grande que les plus de 7 000 langues existantes dans le monde sont hors service. Le méta-modèle a tenté de combler cette lacune en incorporant jusqu’à 101 langues, malgré la rareté des données audio et des modèles pour les intégrer dans l’IA.

Tanel Alumäe, du laboratoire de technologie du langage de l’Université de Tallinn (Estonie), se distingue par Nature la grande capacité du système à traduire simultanément la parole grâce aux données de 4,5 millions d’heures d’audio parlé multilingue. « Ce type de formation aide le modèle à apprendre des modèles à partir des données, ce qui facilite l’ajustement pour des tâches spécifiques sans avoir besoin de grandes quantités de données de formation personnalisées », explique-t-il.

Cependant, selon lui, « la plus grande vertu de ce travail n’est pas l’idée ou la méthode proposée, mais le fait que toutes les données et le code permettant d’exécuter et d’optimiser cette technologie sont accessibles au public, même si le modèle lui-même ne peut être utilisé. pour des usages non commerciaux.

Allison Koenecke, du Département des sciences de l’information de l’Université Cornell, met en garde, également dans Naturedes limites de ces systèmes de traduction, malgré leurs progrès, dans des environnements où la précision est essentielle, comme dans les activités médicales ou juridiques : « Des modèles comme celui imaginé par SEAMLESS accélèrent les progrès dans ce domaine, mais les utilisateurs de ces modèles (les médecins et les fonctionnaires des tribunaux, par exemple) doivent être conscients de la faillibilité des technologies vocales.

En ce sens, ajoute-t-il : « Ce type d’erreur induite par la machine pourrait induire un préjudice réel, comme prescrire à tort un médicament ou accuser une personne. Et les préjudices affectent de manière disproportionnée les populations marginalisées, qui risquent d’être mal entendues.

Koenecke salue les efforts visant à éliminer la « toxicité » des traductions, mais préconise « d’élargir la portée des biais linguistiques étudiés » et d’avertir les utilisateurs des possibilités d’erreur.

Avis

Malgré les progrès du système de traduction, le modèle suscite des soupçons chez certains chercheurs. L’un des plus critiques est Víctor Etxebarria, professeur d’ingénierie des systèmes et d’automatisation à l’Université du Pays Basque (UPV/EHU). « Cela ne contribue pas au progrès scientifique, puisque, sur la base de ce qui est publié, les spécialistes indépendants n’ont pas l’autorisation de reproduire, vérifier ou même améliorer ses bases technologiques. Ils n’ont accès qu’à la connexion au traducteur pour effectuer des traductions superficielles. Ce logiciel [programa] n’est pas conforme aux principes de l’IA open source, tels que définis par l’Open Source Initiative : utiliser, étudier, modifier et partager à quelque fin que ce soit. Ce traducteur ne le permet pas et, par conséquent, ce n’est pas conforme aux principes de la science ouverte », déclare-t-il à Centre des médias scientifiques (SMC) Espagne.

Et même en reconnaissant une certaine vertu comme outil d’aide, le chercheur ajoute : « Le produit n’évite pas les retards ou les erreurs de traduction, qu’il ne corrige pas en temps réel, comme le font les traducteurs. Une autre limitation est qu’il ne peut être utilisé qu’en ligne. via API (Interface de programmation d’applications) imposé par l’entreprise. Dans l’ensemble, le traducteur est un produit technologique avancé et probablement très utile, mais fermé aux principes de la science ouverte et présentant de multiples limitations technologiques et juridiques.

Maite Martín, professeur d’informatique à l’Université de Jaén et chercheuse du groupe SINAI (INTELLIGENT Information Access Systems), souligne l’incorporation de langues avec peu de ressources (plus minoritaires), bien qu’au prix d’un taux d’erreur plus élevé. . «Cet effort améliore non seulement l’accessibilité des technologies de traduction pour ces communautés, mais marque également des progrès en matière d’inclusion linguistique en démocratisant l’accès aux outils de communication avancés», explique-t-il.

Contrairement à Etxebarria, le chercheur considère que l’accès à la communauté scientifique est garanti et vante « l’interaction en temps réel, l’expressivité de la voix traduite et l’atténuation des préjugés de genre et de la toxicité ». « Bien que SEAMLESSM4T représente une avancée significative, il reste encore du travail à faire pour optimiser sa mise en œuvre dans des scénarios pratiques », conclut SMC.

En ce qui concerne la toxicité, Andreas Kaltenbrunner, chercheur principal du groupe AI and Data for Society de l’UOC, rappelle la contradiction de Meta avec sa récente stratégie consistant à supprimer la modération des contenus et à la promouvoir dans le traducteur. « Il est louable que l’étude comprenne une analyse visant à déterminer si les traductions augmentent la toxicité des textes ou comment elles abordent d’éventuels préjugés sexistes. Cependant, il est regrettable que Meta, l’employeur des chercheurs de cette étude, semble avoir récemment décidé d’abandonner ses efforts à cet égard avec sa nouvelle politique de modération du contenu.

Kaltenbrunner rappelle dans SMC que le développement est une variante de celui présenté en août 2023, mais avec des améliorations dans l’unification de l’environnement d’utilisation, les langues incluses, les filtres de bruit et la diversité des accents.



#Meta #développe #traducteur #simultané #jusquà #langues #avec #une #grande #précision #les #systèmes #actuels #Technologie
1736966163

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.