Entretien avec Jérôme Farinas, le traitement automatique de la parole

Nous publions la septième et dernière vidéo de la série d’interviews présentant des travaux de recherche de nos différents départements. Jérôme FARINAS, Maître de Conférence UT3 au département SIÉquipe SAMoVA, explique son travail de recherche sur le traitement automatique de la parole.

Qu’est-ce que le traitement automatique de la parole ?

Le traitement automatique de la parole est un domaine de recherche qui étudie, à partir d’un enregistrement audio de parole, des modélisations et des systèmes afin de pouvoir reconnaitre automatiquement par ordinateur de nombreuses informations. Ces dernières concernent les conditions d’enregistrement de l’extrait audio, la langue qui a été utilisée, le texte qui a été prononcé, les caractéristiques du locuteur, les intonations et les émotions présentes, entre autres. C’est un domaine de recherche multidisciplinaire qui manipule des signaux acoustiques et qui demande des compétences en traitement du signal, en mathématiques, en informatique (en particulier en Intelligence Artificielle), en linguistique, voire en neurosciences, quand il est nécessaire de comprendre le fonctionnement du cerveau humain pour créer des modélisations sur ordinateur.

Quel est l’enjeu de la recherche dans ce domaine ?

D’énormes progrès ont vu le jour depuis les années 2010. La maîtrise de l’apprentissage par réseau de neurones profonds a profondément changé le paysage de la recherche en reconnaissance de formes et particulièrement dans le domaine de la parole. L’intelligence artificielle et une de ses déclinaisons principales appelées Machine Learning (pour apprentissage machine) a vécu une révolution en bénéficiant de l’augmentation de la puissance de calcul et de la disponibilité de grandes collections de données. Cette révolution a changé les modélisations classiquement utilisées et a permis de proposer des solutions à bases de réseaux profonds, de réseaux convolutifs, d’encodeurs-décodeurs, de modèles attentionnels, qui sont des solutions extrêmement gourmandes en matière d’apprentissage. Malgré ces performances, il reste un écueil dès lors que la parole est de qualité réduite ou que l’écoute est perturbée. Cela s’applique à la simulation de la presbyacousie (altération de l’audition liée à l’âge) par la reconnaissance de la parole afin de pouvoir proposer des améliorations au niveau des réglages des prothèses auditives. Actuellement, la recherche de Jérôme Farinas porte sur des paramètres, voire une mesure, qui caractériseraient les troubles de production de la parole, en particulier dans le cas de personnes atteintes de pathologies comme des cancers de la sphère ORL ou de maladie de type Parkinson, et ce de façon objective, donc calculée de façon automatique. Le domaine d’application est clairement le milieu hospitalier, pour lequel le traitement de la parole va faciliter le recueil d’informations au niveau des soins et des recherches cliniques, dans le but d’entrevoir des solutions médicales pour les années à venir.