MLCommons, un groupe de travail sur la sécurité de l’IA à but non lucratif, s’est associé à la plate-forme AI Dev Huging Face pour publier l’une des plus grandes collections mondiales d’enregistrements vocaux du domaine public pour la recherche sur l’IA.
L’ensemble de données, appelé Discours des gens non surveillésContient plus d’un million d’heures d’audio couvrant au moins 89 langues différentes. MLCommons dit qu’il était motivé à le créer par le désir de soutenir la R&D dans «divers domaines de la technologie de la parole».
«Soutenir la recherche plus large de traitement de la langue naturelle des langues autres que l’anglais aide à amener les technologies de communication à plus de personnes dans le monde», a écrit l’organisation dans un article de blog Jeudi. «Nous prévoyons que plusieurs voies pour que la communauté de la recherche continue de construire et de se développer, en particulier dans les domaines de l’amélioration des modèles de parole linguistiques de faibles ressources, de la reconnaissance de la parole améliorée à travers différents accents et dialectes, et de nouvelles applications dans la synthèse de la parole.»
C’est un objectif admirable, bien sûr. Mais les ensembles de données sur l’IA comme le discours des personnes non supervisés peuvent comporter des risques pour les chercheurs qui choisissent de les utiliser.
Les données biaisées sont l’un de ces risques. Les enregistrements dans le discours des personnes non supervisés sont venus d’Archive.org, l’organisme à but non lucratif peut-être mieux connu pour l’outil d’archivage Web Wayback Machine. Parce que de nombreux contributeurs d’Archive.org sont anglophones – et américains – presque tous les enregistrements du discours des personnes non supervisées sont en anglais accente américain, Selon le Readme sur la page du projet officiel.
Cela signifie que, sans filtrage minutieux, des systèmes d’IA comme la reconnaissance de la parole et les modèles de synthétiseur vocal formés sur le discours des personnes non supervisés pourraient présenter certains des mêmes préjugés. Ils pourraient, par exemple, avoir du mal à transcrire l’anglais parlé par un orateur non natif, ou avoir du mal à générer des voix synthétiques dans des langues autres que l’anglais.
Le discours des personnes non surveillé pourrait également contenir des enregistrements de personnes ignorant que leurs voix sont utilisées à des fins de recherche sur l’IA – y compris les applications commerciales. Alors que MLCommons dit que tous les enregistrements de l’ensemble de données sont un domaine public ou disponibles sous licence Creative Commons, il y a des erreurs de possibilité.
Selon une analyse du MITDes centaines d’ensembles de données de formation d’IA accessibles au public manquent d’informations sur les licences et contiennent des erreurs. Les défenseurs des créateurs, notamment Ed Newton-Rex, le PDG de l’organisation à but non lucratif axée sur l’IA, axée sur l’éthique, ont fait valoir que les créateurs ne devraient pas être obligés de «retirer» des ensembles de données d’IA en raison du fardeau onéreux qui s’impose à ces créateurs .
«De nombreux créateurs (par exemple, les utilisateurs de Squarespace) n’ont aucun moyen significatif de se retirer», ” Newton-rex a écrit Dans un article sur X en juin dernier. «Pour les créateurs qui peut Vous désactivez, il existe de multiples méthodes de retrait qui se chevauchent, qui sont (1) incroyablement déroutantes et (2) terriblement incomplètes dans leur couverture. Même si une opt-out universelle parfaite existait, il serait extrêmement injuste de mettre le fardeau de désactivation des créateurs, étant donné que l’IA générative utilise leur travail pour rivaliser avec eux – beaucoup ne réaliseraient tout simplement pas qu’ils pourraient se retirer. “
MLCommons dit qu’il est déterminé à mettre à jour, à maintenir et à améliorer la qualité du discours des personnes non supervisées. Mais étant donné les défauts potentiels, il appartient aux développeurs d’exercer une grande prudence.
#MLCOMMONS #Embrasing #Face #Team #pour #publier #ensemble #données #discours #massifs #pour #recherche #sur #lIA