Neuroprothèse de la parole haute performance

Le professeur Francis R. Willett du département de neurobiologie de l’école de médecine de l’université de Stanford a rapporté leur dispositif/méthode BCI nouvellement développé pour la neuroprothèse de la parole.

Ils se sont concentrés sur les défis de communication auxquels sont confrontées les personnes atteintes de paralysie, notamment celles qui ne peuvent plus parler en raison de maladies telles que la sclérose latérale amyotrophique (SLA). Les personnes atteintes de troubles neurologiques connaissent souvent des troubles de la parole et de la motricité sévères, y compris la perte totale de la parole (syndrome de locked-in). Bien qu’il y ait eu des avancées dans les interfaces cerveau-ordinateur (BCI) qui permettent aux individus de communiquer par le mouvement des mains, les BCI de la parole n’ont pas encore atteint une grande précision pour une communication non contrainte avec de vastes vocabulaires. L’objectif de l’étude est de développer une neuroprothèse de la parole haute performance, spécifiquement un BCI, qui peut restaurer une communication rapide pour les personnes paralysées qui ne peuvent plus parler de manière intelligible.

Les chercheurs ont développé une neuroprothèse de la parole haute performance en utilisant une interface cerveau-ordinateur (BCI). Plus précisément, ils ont utilisé des réseaux de microélectrodes intracorticales pour enregistrer l’activité neuronale. Le participant atteint de sclérose latérale amyotrophique (SLA) qui conservait des mouvements oro-faciaux limités mais ne pouvait pas produire de parole intelligible a tenté de parler, et l’activité neuronale a été décodée en texte à l’aide du BCI. L’étude a également utilisé un modèle linguistique avec un large vocabulaire de 125 000 mots. Les méthodes et le dispositif développés ont permis au participant d’obtenir de faibles taux d’erreurs de mots et une précision significativement améliorée par rapport aux BCI de la parole précédents.

Comment décodent-ils les signaux

Ils ont décodé la parole tentée en utilisant un algorithme de décodage cerveau-texte. Ils ont enregistré l’activité neuronale du participant atteint de SLA en utilisant des réseaux de microélectrodes intracorticales. L’activité neuronale a été temporellement regroupée et lissée sur chaque électrode. Ensuite, un réseau neuronal récurrent (RNN) a été utilisé pour convertir l’activité neuronale en probabilités pour chaque phonème. Le décodeur RNN a combiné ces probabilités de phonèmes avec un modèle linguistique pour déduire la séquence de mots la plus probable. Le modèle linguistique utilisait à la fois les probabilités de phonèmes et les statistiques de la langue anglaise pour décoder la parole. Plus précisément, le décodeur RNN était une architecture unité récurrente à portes de cinq couches formé avec TensorFlow. Pendant le processus de décodage, le participant se préparait à parler une phrase et lorsque le signal de départ était donné, le décodage neuronal était déclenché. Le décodeur RNN générait des mots décryptés en temps réel, reflétant la meilleure estimation du modèle linguistique, qui apparaissait sur un écran. Le participant finalisait la sortie décryptée en appuyant sur un bouton. Ils ont utilisé deux modèles linguistiques différents : un modèle à large vocabulaire avec 125 000 mots et un modèle à petit vocabulaire avec 50 mots. Les performances de l’algorithme de décodage ont été évaluées lors de plusieurs jours de tentatives de parole et de séances de mouvements de la bouche (parole silencieuse). Le participant a obtenu de faibles taux d’erreurs de mots de 9,1 % avec le vocabulaire de 50 mots et de 23,8 % avec le vocabulaire de 125 000 mots.

En plus d’analyser les phonèmes, les chercheurs ont également examiné la représentation des voyelles, qui ont une structure articulatoire bidimensionnelle. Les vecteurs de saillance des voyelles reflétaient cette structure, avec des voyelles similaires ayant une représentation neuronale similaire. L’activité neuronale contenait également un plan qui reflétait les deux dimensions des voyelles de manière directe. Ces résultats ont été vérifiés à l’aide de méthodes supplémentaires et avec d’autres locuteurs valides. Ces résultats suggèrent que la représentation neuronale de la parole dans le cerveau du participant était préservée malgré son incapacité à parler de manière intelligible. Les vecteurs de saillance extraits de l’activité neuronale montraient des détails sur l’articulation des phonèmes et des voyelles, ce qui est encourageant pour le développement de neuroprothèses de la parole.

Les chercheurs ont également étudié trois facteurs importants qui peuvent améliorer la précision et la convivialité des interfaces cerveau-ordinateur de la parole : la taille du vocabulaire du modèle linguistique, le nombre de microélectrodes et la taille de l’ensemble de données d’entraînement.

facteurs importants qui peuvent améliorer la précision et la convivialité des interfaces cerveau-ordinateur de la parole

En ce qui concerne la taille du vocabulaire, ils ont constaté que seules les très petites vocabulaires, comme 50 à 100 mots, conservaient une grande amélioration de précision. Les taux d’erreurs de mots ont atteint une saturation autour de 1 000 mots, ce qui indique que l’utilisation d’une taille de vocabulaire intermédiaire peut ne pas être efficace pour augmenter la précision. Ils ont également étudié l’impact du nombre d’électrodes utilisées pour le décodage. Il a été observé que la précision s’améliorait selon une tendance log-linéaire, ce qui signifie que le doublement du nombre d’électrodes réduisait presque de moitié le taux d’erreurs de mots. Cela suggère que l’utilisation de dispositifs intracorticaux capables d’enregistrer à partir de davantage d’électrodes pourrait conduire à une amélioration des précisions à l’avenir. En résumé, les considérations de conception pour les BCI de la parole impliquent l’optimisation de la taille du vocabulaire du modèle linguistique, l’augmentation du nombre d’électrodes utilisées pour le décodage et la prise en compte de la taille de l’ensemble de données d’entraînement pour améliorer la précision et la convivialité de ces dispositifs neuroprothétiques.