Les deepfakes vocaux trompent même lorsque les gens sont formés pour les détecter | Technologie

Les deepfakes vocaux trompent même lorsque les gens sont formés pour les détecter |  Technologie

2023-08-03 06:20:00

En 2019, le directeur d’une société britannique a été victime d’une escroquerie après avoir reçu un faux message vocal de son manager demandant le virement de 220 000 euros à un fournisseur. Un an après, un directeur de banque à Hong Kong, il a reçu un appel téléphonique d’une personne qui lui était familière. Sur la base de leur relation existante, le banquier a viré 400 000 $ jusqu’à ce qu’il se rende compte que quelque chose n’allait pas. Ce ne sont que des exemples isolés, mais ils deviennent de plus en plus fréquents. Les deux cas impliquent l’utilisation de la technologie faux profond pour cloner des voix, une manière extrêmement sophistiquée de manipuler le contenu. L’identifier est un défi important qui deviendra de plus en plus difficile à mesure que l’intelligence artificielle progresse rapidement. Et il y a de bonnes nouvelles. Alors que certains outils informatiques peuvent les détecter avec un certain degré de précision, les fausses voix trompent les humains, même lorsque les gens s’entraînent.

Une étude menée auprès de 529 personnes, qui publier aujourd’hui dans Plos One, cela montre que les compétences humaines sont inefficaces lorsqu’il s’agit de qualifier sans qu’un message vocal soit faux ou vrai. Les participants ont échoué une fois sur quatre lorsqu’ils ont essayé de détecter correctement ces faux faux voix et les efforts pour les former ont eu un effet minime. La moitié du groupe a reçu une formation préalable, où ils ont pu écouter cinq exemples de parole synthétisée. Malgré cela, l’amélioration n’était que de 3% par rapport à l’autre.

Les chercheurs de la Collège universitaire de Londres, au Royaume-Uni, ont également voulu comprendre si le défi était plus facile ou plus difficile en fonction des caractéristiques des différentes langues, ils ont donc effectué les tests en anglais et en mandarin. Les résultats suggèrent que les capacités sont équivalentes et que les deux publics se sont appuyés sur des attributs similaires pour évaluer l’authenticité des messages, tels que le naturel et s’il semblait robotique. “Les prononciations incorrectes et les intonations inhabituelles dans les extraits sonores étaient couramment mentionnées par les participants anglophones et mandarins lors de la prise de décision”, explique Kimberly Mai, auteur principal de l’étude.

Plus subjectif que visuel

Fait intéressant, les participants ont mentionné les mêmes caractéristiques, que la réponse soit correcte ou non. Mai explique que cela est dû à la subjectivité impliquée dans l’audio. Contrairement à la détection de faux faux visuel, où les objets et les décors peuvent être vus pour juger de l’authenticité, la nature auditive de la parole rend les perceptions plus subjectives. “Quand vous voyez de potentielles fausses personnes, vous pouvez compter le nombre de doigts sur leurs mains ou si leurs accessoires correspondent”, explique le chercheur postdoctoral à l’université britannique.

Pour comparer les capacités humaines et technologiques, les chercheurs ont également réalisé le même test avec deux détecteurs automatisés. Le premier était un logiciel formés avec une base de données en dehors de l’étude, qui a atteint 75% d’affirmation de soi, un chiffre similaire aux réponses humaines. Le second, formé avec la version originale et synthétisée de la voix, a pu identifier la nature de l’audio avec une précision de 100 %. Selon Mai, de meilleures performances se produisent parce que les programmes avancés sont capables d’identifier les subtilités de l’acoustique, ce qui ne peut pas être fait par une personne.

Les sons complexes, comme la parole humaine, contiennent un mélange de différentes fréquences, qui est le nombre de fois qu’une onde sonore se répète en une seconde. « Les détecteurs automatiques examinent des milliers d’échantillons de voix pendant leur phase d’apprentissage. Grâce à ce processus, ils peuvent en apprendre davantage sur les particularités des niveaux de fréquence spécifiques et les irrégularités du rythme. l’homme est incapable décomposer les sons de cette façon », explique le chercheur.

Bien que les détecteurs automatisés se soient avérés plus efficaces que les humains dans cette tâche, ils ont également des limites. Premièrement, ils ne sont pas accessibles pour un usage quotidien. De plus, ses performances diminuent lorsqu’il y a des changements dans l’audio de test ou dans des environnements bruyants. Mais le plus grand défi pour eux est de pouvoir suivre les avancées de l’intelligence artificielle générative, car des contenus de synthèse de plus en plus réalistes sont produits plus rapidement. Si avant des heures d’enregistrement étaient nécessaires pour entraîner un programme, maintenant cela se fait en quelques secondes, par exemple.

Fernando Cucchietti, un expert indépendant de l’étude, souligne que les résultats présentés présentent certaines limites, car les conditions des expériences “sont très basées sur le laboratoire” et ne reflètent pas les menaces quotidiennes de ce type de technologie. « Ils ne sont pas réalistes pour les situations où le faux faux cela peut être problématique, par exemple, si vous connaissez la personne qu’ils imitent », explique le responsable du groupe d’analyse et de visualisation des données du Barcelona Supercomputing Center dans des déclarations au Science Media Center Spain. Malgré cela, Cucchietti souligne que les conclusions sont similaires à d’autres études similaires, et parce qu’il s’agit d’un environnement assez contrôlé, “les résultats sont moins affectés par d’autres facteurs, par exemple, des préjugés ou des biais antérieurs, comme dans le cas des études de désinformation ”.

Évitez les arnaques

Au niveau individuel, les gens ne sont pas fiables pour détecter faux faux voix. Cependant, les résultats de la recherche montrent qu’en regroupant les opinions de plus d’individus et en prenant une décision basée sur un vote majoritaire, il y a une amélioration de la détection. Kimberly Mai recommande : “Si vous entendez un extrait audio dont vous n’êtes pas sûr parce que le contenu semble inhabituel, par exemple s’il s’agit d’une demande de transfert d’une grosse somme d’argent, c’est une bonne idée d’en discuter avec d’autres et de vérifier l’origine.” .

Mai suggère que la voie pour améliorer les détecteurs automatisés consiste à les rendre plus robustes aux différences de test audio. Son équipe travaille à adapter des modèles de base qui ont fonctionné dans d’autres domaines, comme le texte et les images, dit-il. “Comme ces modèles utilisent de grandes quantités de données pour la formation, on s’attend à ce qu’ils généralisent mieux les variations dans les extraits sonores de test”, souligne-t-il. De plus, il estime que les institutions ont l’obligation de prendre parti. “Ils doivent donner la priorité à la mise en œuvre d’autres stratégies, telles que des réglementations et des politiques, pour atténuer les risques découlant de la faux faux voix », plaide-t-il.

Vous pouvez suivre LE PAYS Technologie dans Facebook y Twitter ou inscrivez-vous ici pour recevoir nos bulletin d’information sémanal.




#Les #deepfakes #vocaux #trompent #même #lorsque #les #gens #sont #formés #pour #les #détecter #Technologie
1691051863

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.