Une Interface Cerveau Ordinateur fait parler une patiente ayant perdu la voix suite à un AVC
Une ICO (Interface Cerveau Ordinateur) permet de transformer les "ondes" du cerveau d'un patient en voix synthétique.
C'est une application de l'IA très expérimentale, mais tellement plus utile que les algos qui optimisent le ciblage de la publicité...
Vous avez du voir ces images où l'on voit une malade reliée par un câble à un ordinateur où son avatar parle, lentement, à sa place.
C'est intéressant, car c'est un domaine où l'IA progresse réellement et rapidement. Cela ne fonctionne qu'en laboratoire, mais évolue rapidement.
Edward Chang publiait en 2019, un article dans la revue "Nature" sur son "décodeur" qui convertissait les ondes du cerveau en voix, au rythme de 8 mots par minute.
En 2021, l'équipe de Francis Willett concevait un dispositif qui décodait presque 20 mots par minute.
Aujourd'hui, la même équipe annonce, dans un nouvel article publié fin août, de nouveau dans "Nature", que le dispositif "décode" 62 mots par minute (contre 120 mots par minute pour vous et moi).
Cette technologie repose sur plusieurs "briques".
Des électrodes implantées dans le cerveau du malade qui captent des signaux liés au langage, générés par le cerveau (même si le patient a perdu l'usage de la parole depuis des années) ainsi que des signaux liés aux mouvements, lorsque la personne tente de parler.
Un logiciel reposant sur le deep learning (un RNN, plus précisément), traite ces signaux pour deviner les mouvements que la personne a essayé de provoquer, les sons qu'elle a essayé de produire et les mots qu'elle a essayé de prononcer.
Enfin, un logiciel de text-to-speech et d'animation 3D, anime un avatar en 3D, à l'effigie de la personne et génère une voix imitant celle de la personne.
L'article de Nature détaille le déroulement de l'expérimentation ainsi que les principaux enseignements scientifiques.
Les chercheurs ont d'abord cherché à identifier les zones du cerveau activés lors du langage et, au cours des tests, ont constaté que toutes ces zones n'étaient pas indispensables pour reproduire le langage via le dispositif décrit ci dessus.
Un réseau de neurones (RNN) a été développé pour interpréter ces signaux et, qui, ensuite, a été combiné à un modèle de langage pour générer des phrases à partir de ces signaux.
Plusieurs versions de ce réseau ont été testés, notamment:
- L'une se concentrant sur la génération de textes à partir d'un vocabulaire réduit (environ 240 mots) et affichant un niveau de fiabilité de 90%
- L'autre générant des textes à partir de 125 000 mots, mais beaucoup moins fiable
Données disponibles sur cette expérience
Toutes les données neurales nécessaires pour reproduire les résultats de cette étude sont accessibles au public sur Dryad (https://doi.org/10.5061/dryad.x69p8czpq). L'ensemble des données contient l'activité neuronale enregistrée pendant la tentative d'énonciation de 10 850 phrases, ainsi que des expériences conçues pour étudier la représentation neuronale du mouvement orofacial et de la production de la parole. Dans le cadre de cette étude, les chercheurs ont également analysé des données d'articulographie électromagnétique accessibles au public : la base de données USC-TIMIT (https://sail.usc.edu/span/usc-timit/) et la base de données Haskins Production Rate Comparison (https://yale.app.box.com/s/cfn8hj2puveo65fq54rp1ml2mk7moj3h).
Code et logiciels développés durant cette expérience
Le réseau neuronal utilisé pour décoder les données captées est disponible sur GitHub à l'adresse https://github.com/fwillett/speechBCI
Sources
Article scientifique de Nature rendant compte de cette expérience
Speech synthesis from neural decoding of spoken sentences (Nature, 2019)
Résumé de l'article de Nature en "français commun" (avec l'aide de ChatGPT)
Les scientifiques ont voulu comprendre comment le cerveau contrôle les mouvements du visage et la parole. Pour ce faire, ils ont placé de minuscules électrodes dans le cerveau d'une personne afin d'enregistrer l'activité cérébrale pendant qu'elle essayait de faire des mouvements faciaux, de produire des sons comme des lettres simples et de prononcer des mots simples. Cette personne était atteinte d'une maladie appelée SLA, qui affecte sa capacité à bouger et à parler. Les électrodes ont été placées dans deux zones différentes du cerveau : l'une associée à la parole et l'autre aux mouvements. Les chercheurs ont constaté que l'activité cérébrale dans la zone de la parole n'était pas très utile à la compréhension de la parole, ce qui était surprenant.
Dans l'une des zones étudiées, appelée zone 6v, ils ont découvert que l'activité cérébrale permettait vraiment de distinguer différents types de mouvements et de sons de la parole. Ils ont utilisé un programme informatique spécial pour analyser l'activité cérébrale et ont pu dire avec une grande précision si la personne essayait de bouger son visage d'une certaine manière, de dire un son spécifique ou de prononcer un certain mot. Mais dans une autre zone appelée zone 44, qui est généralement liée à la parole, l'activité cérébrale ne donnait pas beaucoup d'informations sur les mouvements ou les sons de la parole.
Ils ont également remarqué que la partie de l'aire 6v située à l'avant du cerveau semblait mieux comprendre la parole, tandis que la partie située à l'arrière était plus apte à comprendre les mouvements. Ces résultats concordent avec ceux de scanners cérébraux antérieurs, qui montraient que ces zones étaient liées au langage et au mouvement.
En outre, ils ont constaté que les différentes parties de la bouche et de la gorge impliquées dans la parole (comme la mâchoire, les lèvres, etc.) étaient toutes mélangées dans l'activité cérébrale. Cela signifie que le cerveau ne sépare pas ces parties lorsqu'il contrôle la parole.
En conclusion, l'étude suggère que le cerveau peut très bien comprendre différents types de mouvements et de sons de la parole, même chez une personne qui ne peut pas bouger ou parler normalement. Cela pourrait être utilisé pour développer des appareils qui aident les gens à communiquer par le biais de leur activité cérébrale. L'idée traditionnelle de la zone du cerveau responsable de la parole pourrait devoir être repensée, car cette étude a montré qu'elle n'était pas aussi importante pour la parole que ce que l'on pensait au départ. Les chercheurs ont également progressé dans l'utilisation d'un programme informatique pour décoder ce qu'une personne essaie de dire en fonction de son activité cérébrale, avec une précision et une rapidité impressionnantes.
La bonne nouvelle, c'est que le programme informatique qu'ils ont utilisé pour comprendre la parole a souvent obtenu les bons sons avant d'utiliser un modèle de langage. Le programme a commis des erreurs, en particulier pour les sons similaires, mais il a montré que le modèle de langage n'était pas la seule raison du succès.
Ils ont également vérifié comment l'information sur la parole était répartie entre les électrodes du cerveau. Ils ont constaté que les deux parties du cerveau étudiées étaient importantes et que la combinaison des informations provenant des deux parties était encore meilleure pour la compréhension de la parole.
Enfin, ils ont vérifié s'il était possible d'améliorer encore le fonctionnement du programme. En améliorant le modèle linguistique et en le testant sur des phrases plus proches dans le temps des phrases d'entraînement, ils ont réussi à réduire encore les erreurs. Cela suggère qu'avec de meilleurs modèles et des algorithmes plus intelligents, ils pourraient obtenir des résultats encore meilleurs à l'avenir.
Ils ont également étudié la façon dont le cerveau représentait les différents sons de la parole. Ils ont comparé ces données avec celles de personnes capables de parler normalement et ont constaté que le cerveau représentait toujours les sons de la parole de la même manière, même si la personne étudiée ne pouvait pas parler. La représentation par le cerveau des différents sons de la parole correspondait à la façon dont nous produisons ces sons avec notre bouche, par exemple en plaçant notre langue et nos lèvres. C'est le cas pour les consonnes et les voyelles.
En bref, l'étude a montré que le programme informatique pouvait comprendre les sons de la parole sans se baser uniquement sur le modèle de langage.
Ils ont également découvert que le cerveau conserve une compréhension détaillée des sons de la parole, même chez une personne qui ne peut pas parler. Cette connaissance pourrait s'avérer très utile pour créer de meilleurs moyens de communication en utilisant l'activité cérébrale à l'avenir.
Les scientifiques ont voulu comprendre comment le cerveau contrôle les mouvements du visage et la parole. Pour ce faire, ils ont placé de minuscules électrodes dans le cerveau d'une personne afin d'enregistrer l'activité cérébrale pendant qu'elle essayait de faire des mouvements faciaux, de produire des sons comme des lettres simples et de prononcer des mots simples. Cette personne était atteinte d'une maladie appelée SLA, qui affecte sa capacité à bouger et à parler. Les électrodes ont été placées dans deux zones différentes du cerveau : l'une associée à la parole et l'autre aux mouvements. Les chercheurs ont constaté que l'activité cérébrale dans la zone de la parole n'était pas très utile à la compréhension de la parole, ce qui était surprenant.
Dans l'une des zones étudiées, appelée zone 6v, ils ont découvert que l'activité cérébrale permettait vraiment de distinguer différents types de mouvements et de sons de la parole. Ils ont utilisé un programme informatique spécial pour analyser l'activité cérébrale et ont pu dire avec une grande précision si la personne essayait de bouger son visage d'une certaine manière, de dire un son spécifique ou de prononcer un certain mot. Mais dans une autre zone appelée zone 44, qui est généralement liée à la parole, l'activité cérébrale ne donnait pas beaucoup d'informations sur les mouvements ou les sons de la parole.
Ils ont également remarqué que la partie de l'aire 6v située à l'avant du cerveau semblait mieux comprendre la parole, tandis que la partie située à l'arrière était plus apte à comprendre les mouvements. Ces résultats concordent avec ceux de scanners cérébraux antérieurs, qui montraient que ces zones étaient liées au langage et au mouvement.
En outre, ils ont constaté que les différentes parties de la bouche et de la gorge impliquées dans la parole (comme la mâchoire, les lèvres, etc.) étaient toutes mélangées dans l'activité cérébrale. Cela signifie que le cerveau ne sépare pas ces parties lorsqu'il contrôle la parole.
En conclusion, l'étude suggère que le cerveau peut très bien comprendre différents types de mouvements et de sons de la parole, même chez une personne qui ne peut pas bouger ou parler normalement. Cela pourrait être utilisé pour développer des appareils qui aident les gens à communiquer par le biais de leur activité cérébrale. L'idée traditionnelle de la zone du cerveau responsable de la parole pourrait devoir être repensée, car cette étude a montré qu'elle n'était pas aussi importante pour la parole que ce que l'on pensait au départ. Les chercheurs ont également progressé dans l'utilisation d'un programme informatique pour décoder ce qu'une personne essaie de dire en fonction de son activité cérébrale, avec une précision et une rapidité impressionnantes.
En résumé, l'étude s'est penchée sur les moyens d'améliorer les interfaces cerveau-ordinateur (ICU) pour la parole. Elle s'est concentrée sur trois facteurs importants : la taille du vocabulaire du modèle de langage, le nombre d'électrodes utilisées et la quantité de données d'entraînement.
Ils ont découvert qu'en ce qui concerne le vocabulaire du modèle linguistique, les petits vocabulaires (environ 50-100 mots) fonctionnaient très bien, mais que l'augmentation du vocabulaire au-delà d'environ 1 000 mots n'entraînait pas d'amélioration notable de la précision.
Lorsqu'ils ont examiné le nombre d'électrodes utilisées dans l'ICB, ils ont constaté qu'un plus grand nombre d'électrodes permettait d'obtenir une meilleure précision. En fait, le fait de doubler le nombre d'électrodes a permis de réduire de moitié le taux d'erreur, ce qui laisse penser que l'utilisation d'un plus grand nombre d'électrodes pourrait améliorer les performances à l'avenir.
Ils ont également testé l'impact des données d'entraînement. Ils ont entraîné l'ICB avec un grand nombre de données chaque jour et ont constaté que l'ICB était toujours performant même lorsqu'il était entraîné avec moins de phrases. Cela signifie que les méthodes non supervisées qui adaptent l'ICB aux changements de l'activité neuronale au fil du temps pourraient être une solution viable à l'avenir.
L'étude a montré que leur BCI pouvait atteindre un taux de communication de 62 mots par minute, ce qui est plus rapide que d'autres technologies pour les personnes paralysées. Toutefois, les chercheurs reconnaissent qu'il reste encore du travail à faire avant que ce système ne devienne pratique et largement utilisable. Des améliorations sont nécessaires en ce qui concerne le temps de formation, l'adaptation aux changements de l'activité neuronale et la fiabilité de la technologie. Ils doivent également confirmer ces résultats auprès d'un plus grand nombre de participants.
Dans l'ensemble, l'étude présente des résultats prometteurs pour l'amélioration de la communication grâce aux BCI, en particulier pour les personnes souffrant de graves troubles de la parole et de la motricité.