Pour les personnes atteintes de paralysie et incapables de parler, une nouvelle technologie offre un espoir significatif. Une neuroprothèse, conçue par des chercheurs de UC Berkeley et UC San Francisco, permet de transmettre la voix directement depuis le cerveau en temps réel.
cette recherche, publiée dans *Nature Neuroscience*, résout le problème de latence des neuroprothèses vocales, le délai entre l’intention de parler et la production du son. Grâce à l’intelligence artificielle, les chercheurs ont développé une méthode de transmission qui transforme les signaux cérébraux en voix audible presque instantanément.Cette technologie représente une avancée majeure pour faciliter la communication des personnes ayant perdu la parole.
« Notre approche de streaming intègre la même capacité de décodage rapide de la voix que des appareils comme Alexa et siri aux neuroprothèses », affirme Gopala Anumanchipalli. « En utilisant un algorithme similaire, nous avons découvert que nous pouvions décoder des données neuronales et, pour la première fois, permettre la transmission de la voix presque synchrone. Le résultat est une synthèse de la voix plus naturelle et fluide. »
« Cette nouvelle technologie a un énorme potentiel pour améliorer la qualité de vie des personnes vivant avec une paralysie grave affectant la parole », affirme le neurochirurgien Edward Chang, co-investigateur principal de l’étude.
Les chercheurs ont également démontré que leur approche fonctionne avec diverses interfaces de détection cérébrale, y compris les matrices de microélectrodes et les enregistrements non invasifs (sEMG).
« En démontrant une synthèse précise de cerveau à voix dans d’autres ensembles de données de parole silencieuse, nous démontrons que cette technique ne se limite pas à un type spécifique de dispositif », assure Kaylo Littlejohn. « Le même algorithme peut être utilisé dans différentes modalités, à condition qu’il existe un bon signal. »
selon Cheol Jun Cho,la neuroprothèse échantillonne les données neuronales de la zone du cerveau qui contrôle la production de la parole,puis utilise l’IA pour décoder la fonction cérébrale en parole.
« Fondamentalement, nous interceptons les signaux où la pensée se traduit en articulation et au milieu de ce contrôle moteur », affirme-t-il. « Donc, ce que nous décodons, c’est après qu’une pensée a surgi, après que nous ayons décidé quoi dire, après que nous ayons décidé quels mots utiliser et comment bouger les muscles du tractus vocal. »
Pour entraîner leur algorithme, les chercheurs ont demandé à Ann de regarder une indication à l’écran et d’essayer de prononcer la phrase en silence.
« Cela nous a fourni une cartographie entre les fenêtres fragmentées d’activité neuronale qu’elle génère et la phrase cible qu’elle essaie de dire, sans avoir besoin de vocaliser à aucun moment », commente Littlejohn.
Étant donné qu’Ann n’a pas de vocalisation résiduelle, les chercheurs ont utilisé l’IA pour compléter les détails manquants.
« Nous avons utilisé un modèle de texte à parole pré-entraîné pour générer de l’audio et simuler un objectif », indique Cho. « Et nous avons également utilisé la voix d’Ann avant la lésion, donc en décodant la sortie, elle ressemble davantage à la sienne. »
Dans une étude précédente, la latence de décodage était d’environ 8 secondes pour une seule phrase. Avec la nouvelle approche, une sortie audible peut être générée presque en temps réel.
pour mesurer la latence, les chercheurs ont utilisé des méthodes de détection de la voix.
« Nous pouvons voir que,par rapport à ce signal d’intention,en une seconde,nous obtenons le premier son »,assure Anumanchipalli. « Et le dispositif peut décoder la parole continuellement, pour qu’Ann puisse continuer à parler sans interruptions. »
Cette vitesse accrue n’a pas réduit la précision. L’interface plus rapide a offert le même niveau élevé de précision de décodage que l’approche précédente.
Les chercheurs ont également testé la capacité du modèle à synthétiser des mots qui ne faisaient pas partie du vocabulaire de l’ensemble de données d’entraînement.
« Nous voulions voir si nous pouvions généraliser aux mots invisibles et réellement décoder les schémas de parole d’Ann. Nous avons découvert que notre modèle le fait bien, ce qui démontre qu’il apprend effectivement les composants de base du son ou de la voix. »
Ann, qui a également participé à l’étude de 2023, a partagé son expérience avec la nouvelle approche.
« Ann a transmis que la synthèse en streaming était une modalité avec un plus grand contrôle volontaire », ajoute Anumanchipalli. « Écouter sa propre voix presque en temps réel a augmenté sa sensation de personification. »
Ce travail rapproche les chercheurs d’une parole naturaliste avec des dispositifs BCI, tout en jetant les bases de futurs progrès.
Les chercheurs restent concentrés sur l’augmentation de l’expressivité de la voix de sortie pour refléter les changements de ton, de timbre ou de volume.
Neuroprothèse Vocale : Révolution dans la Communication pour les Personnes Paralysées
FAQ
Qu’est-ce qu’une neuroprothèse vocale ?
Une technologie qui traduit les signaux cérébraux en parole audible.
Qui a développé cette technologie ?
Des chercheurs de l’UC Berkeley et de l’UC San Francisco.
Quelle était le principal problème des neuroprothèses précédentes ?
La latence, le délai entre l’intention de parler et la production du son.
Comment cette nouvelle technologie résout-elle le problème de latence ?
Grâce à l’intelligence artificielle, qui transforme les signaux cérébraux en voix en temps réel.
Comment fonctionne la technologie ?
Elle décode les données neuronales pour produire une voix presque synchrone et naturelle. elle échantillonne les données neuronales de la zone du cerveau qui contrôle la parole, puis utilise l’IA pour décoder la fonction cérébrale en parole.
Avec quelles interfaces cette technologie est-elle compatible ?
Avec diverses interfaces de détection cérébrale, y compris les matrices de microélectrodes et les enregistrements non invasifs (sEMG).
Comment les chercheurs ont-ils entraîné l’algorithme ?
En demandant à une personne de penser à prononcer une phrase et les chercheurs ont utilisé l’IA pour compléter les détails manquants.
Quelle était la latence précédente ?
Environ 8 secondes pour une seule phrase.
Quelle est la latence actuelle ?
Presque en temps réel.
La précision a-t-elle été effectée par la vitesse accrue ?
Non, le niveau de précision reste élevé.
La technologie peut-elle synthétiser des mots inconnus ?
Oui, ils ont réussi à décoder des schémas de parole non inclus dans le vocabulaire de l’ensemble de données d’entraînement.
Quel est l’impact de cette technologie sur la personne l’utilisant ?
Elle offre un plus grand contrôle et augmente la sensation de personnification.
Quelles sont les prochaines étapes ?
Augmenter l’expressivité de la voix, comme le ton, timbre et volume.
Avancées Clés de la Neuroprothèse Vocale
| Caractéristique | Ancienne Approche | Nouvelle Approche |
|———————–|————————————————-|—————————————————|
| Latence | Environ 8 secondes pour une phrase | Presque en temps réel |
| Précision | Similaire | Élevée |
| Décodage | Se limite à un vocabulaire défini |Généralisé aux mots inconnus |
| Impact sur l’utilisateur | Moins de contrôle et faible personnification | Plus grand contrôle et augmente la personnification |