L’accélération des avancées en reconnaissance de la parole est un fait objectif. A tel point que des banques ont commencé à adopter la technologie de transcription automatique « Speech-to-Text » pour aider la conformité bancaire dans les salles de marchés. Mais cette technologie est-elle aujourd’hui véritablement efficace?

Dans un contexte d’annonces enthousiastes, Microsoft a récemment déclaré que la machine a surpassé l’humain pour la tâche de transcription de parole en texte, dite « Speech-to-Text ». Comment faut-il prendre ce type de déclarations, avec quels espoirs et quelles précautions ? L’histoire récente de la reconnaissance de la parole, intimement liée à celle de l’intelligence artificielle et des apprentissages profonds, apporte un premier élément de réponse, mais l’enquête nécessite aussi un décryptage des métriques utilisées et des conditions de test pour comprendre les véritables enjeux encore à venir dans ce domaine en pleine transformation, qui commence à entrer dans les salles de marché de grandes banques.

1. Progrès et annonces fracassantes

A partir de 2012, une série de communications attirent l’attention du grand public sur la technologie vocale : Microsoft communique sur les réseaux de neurones profonds [1], puis démontre la reconnaissance et la traduction simultanée de l’anglais vers le chinois [2]. La même année, le New York Times consacre un article à Google Brain, pour ses résultats en reconnaissance d’image, également appliqués en reconnaissance de parole [3]. A partir de 2016, une course au taux de reconnaissance s’engage entre Microsoft, Google et IBM, et à l’été 2017, Microsoft annonce que la machine surpasse l’humain dans la tâche de transcription de la parole [4].

Est-ce la fin de l’histoire en reconnaissance automatique de parole ? et le début d’applications rêvées enfin exemptes de toute erreur d’interprétation ?
Pas exactement. Alors comment démêler le vrai du faux, le fantasmé du prometteur ? Etudions d’abord la part de science derrière ces annonces.

2. Le lien avec l’intelligence artificielle

L’engouement actuel pour ce qu’on nomme l’IA (Intelligence Artificielle) a la même base technologique que les récents progrès en reconnaissance de parole : l’apprentissage profond, c’est-à-dire l’apprentissage à base de réseaux de neurones dotés non seulement d’une couche d’entrée et d’une couche de sortie, mais aussi d’un grand nombre de couches dites « cachées », modèle imitant, toutes proportions gardées, l’organisation du cortex cérébral humain (figure 1).

Figure 1. Réseau de neurones
(a) Schéma d’un réseau de neurones avec une couche d’entrée, deux couches cachées et une couche de sortie.
(b) Principe de fonctionnement du réseau de neurones, inspiré du modèle biologique neurone-synapse.
Source : [5]

Il faut rappeler que cette famille de modèles a d’abord été développée en reconnaissance d’image, puis en reconnaissance de parole, avant d’être utilisée pour la résolution de problème et de jeux, avec le succès retentissant du projet Google DeepMind / AlphaGo, qui a battu le champion du monde au jeu de Go. D’autres champs d’application plus récents sont notamment la traduction automatique et le traitement du langage naturel.

La reconnaissance d’image et de parole sont en quelque sorte les filles ainées de l’IA actuelle.

3. Alors mythe ou réalité ?

L’accélération des avancées en reconnaissance de la parole, comme dans l’ensemble du champ de l’intelligence artificielle, est un fait objectif. Google annonce avoir divisé son taux d’erreur par deux, voire par quatre, entre 2012 et 2017. Ce type de progrès se retrouve chez la plupart les acteurs en pointe sur le domaine. Or, pour trouver une amélioration d’une telle ampleur il faut remonter au moins de trois ou quatre décennies en arrière.

4. Une perspective historique sur la reconnaissance de parole

Le type de rupture que nous vivons aujourd’hui avec les réseaux de neurones profonds n’est pas sans rappeler celle que représenta en son temps l’avènement des approches statistiques face aux systèmes experts en vogue dans les années 60-70. Ces derniers s’appuyaient sur des arbres de décisions pour classifier les consonnes et les voyelles (appelés « phonèmes »), en fonction de caractéristiques telles que le voisement – si le son véhicule ou non le timbre de la voix -, le caractère plosif – si le son est marqué ou non par une phase de fermeture du larynx avant d’être prononcé, tels « p », « t », « k », et leurs variantes voisées « b », « d », « g » etc. La plupart de ces propriétés sont visibles dans le spectrogramme (figure 2), c’est-à-dire l’analyse fréquentielle du signal au cours du temps [6].

Figure 2. Signal sonore et spectogramme
« Eyjafjallajökull* » : en bas le signal sonore et son amplitude au fil du temps ; en haut : le spectrogramme du signal ; au milieu la chaine de phonèmes. Source [7]

(*)Nom du volcan islandais dont l’éruption en 2010 a fortement perturbé le trafic aérien

Théoriquement, un ensemble de distinctions éclairées pouvaient en cascade identifier chacun des sons prononcés. En réalité, l’espace de réalisation acoustique ne se laisse pas enfermer si facilement : il est vaste, variable et plein d’ambiguïtés locales, en fonction des locuteurs, du contexte, du bruit ambiant etc. Par ailleurs les transitions entre phonèmes sont souvent subtiles, et les vitesses d’élocutions éminemment variables.

Des modélisations statistiques – chaines de Markov cachées (HMM) et mélanges de gaussiennes (GMM) – commencèrent à être utilisées pour capturer ces variabilités. Cette approche probabiliste largement basée sur les données, semblait éloigner la communauté scientifique des lumières de la connaissance et de l’intelligibilité des modèles, mais s’avéra redoutablement plus performante que les systèmes experts, d’autant qu’elle coïncida à la fois avec les compétitions lancées par l’agence de défense américaine ARPA/DARPA, qui donnèrent lieu aux premiers grands corpus de données d’apprentissage, et avec les progrès exponentiels dans les capacités de calcul des micro-processeurs, se mettant à suivre la fameuse « loi de Moore » de doublement de capacité tous les 18 mois .

C’est de cette époque – au milieu des années 80- que daterait la phrase mythique et controversée du regretté Fred Jelinek, grande figure de l’apprentissage supervisé et non-supervisé, alors directeur du groupe de recherche en parole chez IBM, qui aurait déclaré :

« A chaque fois qu’un linguiste quitte le groupe, le taux de reconnaissance augmente »

Phrase au statut légendaire même si elle n’est pas nettement attestée. En tout état de cause, l’approche statistique HMM-GMM régna sans partage – ou presque — pour les trois décennies qui suivirent, jusqu’à être détrônée tout récemment par les réseaux de neurones profonds.

Nous savons à présent que les annonces de percée majeure sont justifiées, qu’en est-il des comparaisons de performances entre machine et humain ?

5. Comprendre les mesures de performance de la reconnaissance vocale

La mesure généralement utilisée pour évaluer les systèmes de « Speech-to-Text » est le taux d’erreur de mots (« word error rate » ou « WER »). Elle consiste à additionner toutes les erreurs de mots, à savoir substitutions, insertions et délétions de mots, et diviser par le nombre total de mots dans la transcription de référence : WER = ( S + I + D ) / N

Un WER de 10% correspond à un taux de reconnaissance de 90%. Cette métrique n’est pas parfaite, puisqu’elle donne notamment la même importance à toutes les erreurs, alors que certaines ont beaucoup plus d’impact que d’autres au regard de l’application visée, mais elle a le mérite d’être rigoureuse et standard, ce qui permet des comparaisons dans le temps et entre systèmes.

6. Ce que disent les évaluations de Microsoft, IBM, Google et Baidu

Quand Microsoft, IBM , Google ou Baidu – le « Google chinois »– comparent le taux d‘erreur de la machine au taux d’erreur de transcripteurs humains, ils évaluent la compétence de transcripteurs humains extérieurs aux conversations, et non celle des interlocuteurs eux-mêmes, qui auraient un taux d’erreur bien plus proche de zéro. Par ailleurs, les erreurs commises par les systèmes automatiques sont généralement de nature différente de celles commises par des humains.

Le schéma ci-dessous (figure 3) montre que le taux d’erreur de la transcription automatique est passé en dessous du taux d’erreur des transcripteurs humains. Mais ces chiffres sont mesurés sur 20 ou 40 conversations téléphoniques, issue du Corpus « Switchboard », collecté aux Etats Unis en 2000, et réputé pour sa qualité audio particulièrement propre.

Figure 3. Evolution du taux d’erreur de mots
Baisse du taux d’erreur de mots (WER) sur une sous-partie des conversations du Corpus Switchboard, jusqu’à descendre en dessous du niveau d’erreur de transcripteurs humains. Sources [8]

Figure 4. Comparaison des taux d’erreur machine et humain.
A part dans le cas de données très peu bruitées (High SNR = Ratio Signal sur Bruit, élevé), le taux d’erreur de la machine est toujours supérieur à celui de l’humain.
Sources : [8] et [9]

Les équipes de Baidu [9] ont démontré (figure 4) que beaucoup de cas mettent encore la technologie en difficulté : notamment les accents anglais non américains, les accents non natifs, la parole très bruitée. Les enjeux d’amélioration ne manquent donc pas, malgré les récents progrès annoncés.

7. Conclusion

Les annonces de progrès fantastiques en transcription de parole ne sont pas usurpées : elles sont liées à l’apprentissage profond, ainsi qu’à l’accroissement des capacités de calculs et des données d‘apprentissages, phénomènes qui impactent par ricochet tous les autres domaines de l’intelligence artificielle. En revanche les comparaisons de performances rangeant la machine devant l’humain sont contestables et correspondent au mieux à un cas de figure isolé et particulièrement favorable : l’anglais américain énoncé dans un environnement très peu bruité. Les accents anglais non américains, les accents non natifs, la parole très bruitée restent autant de champs où la transcription de parole a encore des marges de progrès devant elle.

8. Épilogue

Que signifient ces avancées pour la transcription des traders en salle de marché ?

Dans le contexte d’entrée en vigueur de MiF2 et d’élévation du risque réglementaire [10], la transcription automatique est pressentie comme un atout formidable pour aider la conformité bancaire dans les salles de marchés . Or ces dernières cumulent précisément toutes les conditions adverses listées plus haut : accents anglais non américains, accents non natifs, parole très bruitée. Pourtant le défi a été récemment relevé avec succès : en Europe, plusieurs banques de financement et d’investissement (BFI) viennent d’adopter la technologie « speech-to-text », ce qui valide que l’histoire continue et la technologie n’a pas fini de faire parler d’elle.

Retour vers le futur
Le long hiver des réseaux de neurones

Les approches neuronales remontent aux années 50, et furent assez populaires au début des années 90, mais elles connurent un « long hiver » avant de connaitre le réchauffement d’attention actuel. On peut rapprocher ce phénomène du fameux « long hiver de l’Intelligence Artificielle », même si les deux disciplines n’avaient pas encore convergé alors. Nous empruntons les schémas ci-dessous, avec son autorisation, à Nikko Ström, senior principal scientist chez Amazon, pour illustrer ce long hiver, pendant lequel les quelques téméraires qui se risquaient à travailler sur le sujet voyaient leurs articles refusés dans les grandes conférences académiques.

Le consensus aujourd’hui pour expliquer ce réveil soudain est qu’il correspond à la conjonction de trois phénomènes :

  • des corpus de données d’apprentissage 10 fois à 100 fois plus volumineux que dans les années 90 ;
  • des capacités de calcul parallèle multipliées d’un facteur proche de 100 grâce à l’usage des GPU – les graphical processing units – des cartes graphiques initialement dédiées aux calculs de rendu graphique 3D pour les jeux vidéos, et détournées de leur usage au service des calculs massivement parallèles de l’apprentissage profond.
  • des progrès dans les algorithmes d’apprentissage pour les réseaux de neurones dotés d’un grand nombre de couches cachées.

De façon assez unique, une publication de 2012 [12] , co-écrite par les groupes de recherche de IBM, Google, Microsoft, et de l’Université de Toronto – où se trouvaient la plupart des initiateurs du mouvement – officialisa le retour en grâce des réseaux de neurones, qui constituent aujourd’hui la majorité des publications de nombreuses conférences académiques.

Références
[1]Clayton S., (2012), «A breakthrough in speech recognition with Deep-Neural-Network approach», Microsoft News Center, 20 Juin
[2] BBC News, (2012), «Microsoft demos instant English-Chinese translation», BBC News website, 9 Novembre
[3] Markoff J., (2012), «How Many Computers to Identify a Cat? 16,000», New York Times, 25 Juin
[4] Xuedong H., (2017), «Microsoft researchers achieve new conversational speech recognition milestone», 10 Août
[5] Alves, M., et Lemberger, P., (2015), « Le Deep Learning pas à pas », www.technologies-ebusiness.com, Mai
[6] Rabiner LR., Juang BH., (1993), «Fundamentals of speech recognition», Prentice hall ed.
[7]Liberman, M., (2010), «A little Icelandic phonetics», LDC-UPenn Blog, 19 Avril
[8] Hannun, A. Y., (2017), «Speech Recognition Is Not Solved», Stanford University blog, Octobre. NB : les chiffres sont issus de [9], dont il est co-auteur.
[9] Amodei D., et al (2016), «Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin» in Proceedings of The 33rd International Conference on Machine Learning, PMLR 48:173-182
[10] Rocchi, J-M., (2017), «Non-conformité réglementaire. Vers un nouveau risque majeur pour les banques et les sociétés de gestion d’actifs?», Revue Banque N°814, Décembre
[11] Ström, N., Gupta, A., (2016), «Deep Learning in Alexa», AWS Re:INVENT 30 Novembre
[12] Hinton G., et al, (2012), «Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups» in IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82-97, Novembre

A propos de l’auteur

Ariane Nabeth-Halber, Directrice, ligne stratégique « Speech », Bertin IT ; Membre du board de LT-Innovate, the Language Technology Industry association ; Experte et Reviewer auprès de la Commission Européenne ; Docteure en Informatique et en traitement du Signal