Partie II. . Le contrôle des communications voix : une tâche considérable enfin résolue?

Dans les faits, le contrôle des communications voix par la conformité est une tâche considérable, qui était jusqu’à peu assez mal outillée, du fait de la nature particulière de ces données audio. Des déploiements récents réussis ouvrent aujourd’hui la voie, non seulement pour les départements conformité des PSI, mais aussi pour un grand nombre de métiers de l’entreprise.

Les approches existantes

« Etant donnée la masse des appels générés en salles de marché, la capacité d’écoute humaine est largement insuffisante et la probabilité de découverte sur un échantillonnage aléatoire est extrêmement limitée. »

Les responsables de la conformité ont souvent peu d’outils à leur disposition pour adresser les communications téléphoniques : accès et réécoute d’enregistrements ciblés ; recherche par méta-données d’appel, telles que appelant, appelé, date et heure de l’appel ; enfin écoute par échantillonnage.
Étant donnée la masse des appels générés en salles de marché, la capacité d’écoute humaine est largement insuffisante et la probabilité de découverte sur un échantillonnage aléatoire est extrêmement limitée. Seule une approche quasi-exhaustive des appels peut donner une capacité de découverte efficace. C’est une tâche considérable pour les département conformité, et impossible à mener à bien sans automatisation.

En termes de solutions vocales automatiques, la principale famille d’offres existant jusqu’à présent sert plutôt les enquêtes ex-post, principalement sur le marché nord-américain. Ces offres intègrent de la détection de mots clef et de l’indexation phonétique pour rechercher de séquences de phonèmes et expressions clefs dans une base de données audio préalablement extraite. Comme l’audio n’est pas transformé en texte, ce type d’approche ne permet pas de convergence naturelle avec les autres canaux digitaux et ne fait pas levier des progrès rapides en intelligence des données textuelles. Ces solutions incluent parfois certaines capacités de transcription parole-texte (Speech-to-Text), mais ne permettaient pas, jusqu’à récemment, de passer le cap de la surveillance quotidienne.
La révolution technologique apportée par les apprentissages profonds, discutée dans un précédent article permet à présent l’éclosion de solutions de transcription beaucoup plus précises et robustes. Tel est le cas notamment du moteur MediaSpeech de Bertin IT. La reconnaissance vocale s’appuie sur des réseaux de neurones profonds (deep neural networks ou DNN), constitutifs de ce que l’on nomme aujourd’hui l’intelligence artificielle.

Cependant, les données audio des salles de marché comportent de nombreuses particularités qui sont autant de défis pour les solutions automatiques, fussent-elles neuronales.

La nature des données

« Les données audio issues des enregistrements de salles de marché cumulent les défis les plus ardus de la reconnaissance vocale. « 

Les données audio qui rentrent dans le périmètre du contrôle de la conformité sont pour l’essentiel les enregistrements des postes téléphoniques de l’environnement salle de marché : platines de téléphonie de marché, téléphones IP, éventuellement téléphones mobiles.
Certains fournisseurs de téléphonie de marché préparent des offres permettant d’analyser leurs flux téléphoniques à la source ; ce qui ouvre des perspectives intéressantes. Pour l’instant, ces offres nouvelles sont encore limitées et pas forcément compatibles avec les exigences de conservation légale des données de MIF 2.

Les enregistrements conventionnels des conversations en salle de marché restent aujourd’hui la source incontournable des travaux de la conformité. Ces enregistrements cumulent de nombreux défis : le volume de données, la multiplicité des types de téléphonie et d’enregistreurs, le bruit ambiant, la parole superposée – surtout si les lignes sont mixées entre elles, la mauvaise qualité audio due à la forte compression des enregistrements, la spontanéité de la parole, les jargons utilisés, les langues et les accents.

En résumé, Les données audio issues des enregistrements de salles de marché cumulent les défis les plus ardus de la reconnaissance vocale.
De façon intéressante, les plus grands défis pour la technologie s’avèrent être ceux liés au territoire européen, et d’une façon générale aux territoires hors Amériques : il s’agit de la diversité des langues parlées par les traders, des nombreux emprunts à l’anglais dans les conversations non-anglophones et surtout de la prévalence des accents non-natifs dans les conversations anglophones.

Il a donc fallu pousser les technologies neuronales encore plus loin pour répondre à ces défis spécifiques (cf. encadré 2) et répondre aux besoins concrets des salles de marché.

Lire la suite

A propos de l’auteur

Ariane Nabeth-Halber, Directrice, ligne stratégique « Speech », Bertin IT ; Membre du board de LT-Innovate, the Language Technology Industry association ; Experte et Reviewer auprès de la Commission Européenne ; Docteure en Informatique et en traitement du Signal