La technologie de reconnaissance vocale montre des gains significatifs pour les personnes atteintes de dysarthrie

Alors que Mark Hasegawa-Johnson parcourait les données de son dernier projet, il a été agréablement surpris de découvrir une recette d’œufs à la florentine. Passer au crible des centaines d’heures de discours enregistrés permettra de découvrir un ou deux trésors, a-t-il déclaré.

Hasegawa-Johnson dirige le Speech Accessibility Project, une initiative de l’Université de l’Illinois à Urbana-Champaign visant à rendre les appareils de reconnaissance vocale plus utiles pour les personnes ayant des troubles de la parole.

Cette étude paraît dans le Journal de recherche sur la parole, le langage et l’audition. Les enregistrements vocaux utilisés dans l’étude sont librement accessibles aux chercheurs, aux organisations à but non lucratif et aux entreprises cherchant à améliorer leurs appareils de reconnaissance vocale.

“Nos résultats suggèrent qu’une grande base de données sur la parole atypique peut améliorer considérablement la technologie vocale pour les personnes handicapées”, a déclaré Hasegawa-Johnson, professeur de génie électrique et informatique à l’Illinois et chercheur au Beckman Institute for Advanced Science and Technology de l’université. où se situe le projet. “J’ai hâte de voir comment d’autres organisations utiliseront ces données pour rendre les appareils de reconnaissance vocale plus inclusifs.”

Des machines telles que les smartphones et les assistants virtuels utilisent la reconnaissance vocale automatique pour donner un sens aux vocalisations, permettant aux utilisateurs de mettre en file d’attente une liste de lecture, de dicter des messages mains libres, de participer de manière transparente à des réunions virtuelles et de communiquer clairement avec leurs amis et les membres de leur famille.

La technologie de reconnaissance vocale ne fonctionne pas bien pour tout le monde ; en particulier, ceux qui souffrent de troubles neuromoteurs comme la maladie de Parkinson, qui peuvent provoquer une gamme de schémas d’élocution tendus, troubles ou désordonnés, collectivement appelés dysarthrie.

“Malheureusement, cela signifie que de nombreuses personnes qui ont le plus besoin d’appareils à commande vocale peuvent rencontrer le plus de difficultés à bien les utiliser”, a déclaré Hasegawa-Johnson.

“Nous savons grâce aux recherches existantes que si vous entraînez un ASR sur la voix d’une personne, il commencera à la comprendre avec plus de précision. Nous avons demandé : pouvez-vous entraîner un système de reconnaissance automatique de la parole pour comprendre les personnes atteintes de dysarthrie due à la maladie de Parkinson en l’exposant à un petit groupe de personnes. des personnes ayant des schémas de langage similaires ? »

“De nombreuses personnes aux prises avec un trouble de la communication depuis longtemps, en particulier un trouble progressif, peuvent se retirer de la communication quotidienne”, a déclaré Clarion Mendes, orthophoniste de l’équipe. “Ils pourraient partager de moins en moins souvent leurs pensées, leurs besoins et leurs idées uniques, pensant que leur communication est tout simplement trop impactée pour s’engager dans des conversations significatives.

“Ce sont exactement les personnes que nous recherchons”, a-t-elle déclaré.

Les participants sélectionnés ont utilisé leurs ordinateurs personnels et leurs smartphones pour soumettre des enregistrements vocaux. Travaillant à leur propre rythme et avec l’aide facultative d’un soignant, ils répétaient des commandes vocales classiques telles que « Régler une alarme », récitaient des passages de romans et donnaient leur avis sur des questions ouvertes telles que « Veuillez expliquer les étapes à suivre pour préparer le petit-déjeuner pour quatre personnes ». “.

Répondant à cette dernière, un participant a énuméré les étapes pour fabriquer des œufs à la florentine – ; Sauce hollandaise et tout – ; tandis qu’un autre conseillait de manière pragmatique de commander des plats à emporter.

“De nombreux participants nous ont dit que le processus de participation était non seulement agréable, mais qu’il leur avait donné la confiance nécessaire pour communiquer à nouveau avec leur famille”, a déclaré Mendes. “Ce projet a apporté de l’espoir, de l’enthousiasme et de l’énergie – des qualités humaines uniques – à beaucoup de nos participants et à leurs proches.”

Elle a déclaré que l’équipe avait consulté des experts de la maladie de Parkinson et des membres de la communauté pour développer un contenu pertinent pour la vie des participants. Les invites étaient spécifiques et spontanées : entraîner un algorithme vocal à reconnaître les noms de médicaments, par exemple, peut aider un utilisateur final à communiquer avec sa pharmacie, tandis que les amorces de conversation informelles imitent la cadence des bavardages quotidiens.

“Nous disons aux participants : nous savons que vous pouvez rendre votre discours plus clair en y mettant tous vos efforts, mais vous en avez probablement assez de devoir essayer de vous faire comprendre pour le bénéfice des autres. Essayez de vous détendre et de communiquer comme si vous “Tu discutes avec ta famille sur le canapé”, a déclaré Mendes.

Pour évaluer dans quelle mesure l’algorithme vocal a écouté et appris, les chercheurs ont divisé les échantillons en trois ensembles. Le premier groupe de 190 participants, soit 151 heures enregistrées, a formé le modèle. À mesure que ses performances s’amélioraient, les chercheurs ont confirmé que le modèle apprenait sérieusement (et ne mémorisait pas seulement les réponses des participants) en l’introduisant dans un deuxième ensemble d’enregistrements, plus petit. Lorsque le modèle a atteint ses performances maximales sur le deuxième ensemble, les chercheurs l’ont testé avec l’ensemble de test.

Les membres de l’équipe de recherche ont transcrit manuellement une moyenne de 400 enregistrements par participant pour vérifier le travail du modèle.

Ils ont constaté qu’après avoir écouté l’ensemble de formation, le système ASR transcrivait les enregistrements de l’ensemble de test avec un taux d’erreur de mot de 23,69 %. À titre de comparaison, un système formé sur des échantillons de parole provenant de personnes sans maladie de Parkinson a transcrit l’ensemble de tests avec un taux d’erreur de mots de 36,3 % – ; environ 30% moins précis.

Les taux d’erreur ont également diminué pour presque tous les individus participant à l’ensemble de tests. Même les locuteurs dont le discours est moins typique de la maladie de Parkinson, comme un discours inhabituellement rapide ou un bégaiement, ont connu de modestes améliorations.

“J’étais ravi de constater un bénéfice aussi spectaculaire”, a déclaré Hasegawa-Johnson.

Il a ajouté que son enthousiasme est renforcé par les commentaires des participants :

“J’ai parlé avec un participant qui s’intéressait à l’avenir de cette technologie”, a-t-il déclaré. “C’est ce qui est merveilleux dans ce projet : voir à quel point les gens peuvent être enthousiasmés par la possibilité que leurs haut-parleurs intelligents et leurs téléphones portables les comprennent. C’est vraiment ce que nous essayons de faire.”

Source:

Institut Beckman pour les sciences et technologies avancées

#technologie #reconnaissance #vocale #montre #des #gains #significatifs #pour #les #personnes #atteintes #dysarthrie

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.