Partie 2 | Quand le speech-to-text apprend la langue des salles de marché

  • Speech to text dans les salles de marchés

Partie II. . Le contrôle des communications voix : une tâche considérable enfin résolue?

Dans les faits, le contrôle des communications voix par la conformité est une tâche considérable, qui était jusqu’à peu assez mal outillée, du fait de la nature particulière de ces données audio. Des déploiements récents réussis ouvrent aujourd’hui la voie, non seulement pour les départements conformité des PSI, mais aussi pour un grand nombre de métiers de l’entreprise.

Les approches existantes

« Etant donnée la masse des appels générés en salles de marché, la capacité d’écoute humaine est largement insuffisante et la probabilité de découverte sur un échantillonnage aléatoire est extrêmement limitée. »

Les responsables de la conformité ont souvent peu d’outils à leur disposition pour adresser les communications téléphoniques : accès et réécoute d’enregistrements ciblés ; recherche par méta-données d’appel, telles que appelant, appelé, date et heure de l’appel ; enfin écoute par échantillonnage.
Étant donnée la masse des appels générés en salles de marché, la capacité d’écoute humaine est largement insuffisante et la probabilité de découverte sur un échantillonnage aléatoire est extrêmement limitée. Seule une approche quasi-exhaustive des appels peut donner une capacité de découverte efficace. C’est une tâche considérable pour les département conformité, et impossible à mener à bien sans automatisation.

En termes de solutions vocales automatiques, la principale famille d’offres existant jusqu’à présent sert plutôt les enquêtes ex-post, principalement sur le marché nord-américain. Ces offres intègrent de la détection de mots clef et de l’indexation phonétique pour rechercher de séquences de phonèmes et expressions clefs dans une base de données audio préalablement extraite. Comme l’audio n’est pas transformé en texte, ce type d’approche ne permet pas de convergence naturelle avec les autres canaux digitaux et ne fait pas levier des progrès rapides en intelligence des données textuelles. Ces solutions incluent parfois certaines capacités de transcription parole-texte (Speech-to-Text), mais ne permettaient pas, jusqu’à récemment, de passer le cap de la surveillance quotidienne.
La révolution technologique apportée par les apprentissages profonds, discutée dans un précédent article permet à présent l’éclosion de solutions de transcription beaucoup plus précises et robustes. Tel est le cas notamment du moteur MediaSpeech de Bertin IT. La reconnaissance vocale s’appuie sur des réseaux de neurones profonds (deep neural networks ou DNN), constitutifs de ce que l’on nomme aujourd’hui l’intelligence artificielle.

Cependant, les données audio des salles de marché comportent de nombreuses particularités qui sont autant de défis pour les solutions automatiques, fussent-elles neuronales.

La nature des données

« Les données audio issues des enregistrements de salles de marché cumulent les défis les plus ardus de la reconnaissance vocale. « 

Les données audio qui rentrent dans le périmètre du contrôle de la conformité sont pour l’essentiel les enregistrements des postes téléphoniques de l’environnement salle de marché : platines de téléphonie de marché, téléphones IP, éventuellement téléphones mobiles.
Certains fournisseurs de téléphonie de marché préparent des offres permettant d’analyser leurs flux téléphoniques à la source ; ce qui ouvre des perspectives intéressantes. Pour l’instant, ces offres nouvelles sont encore limitées et pas forcément compatibles avec les exigences de conservation légale des données de MIF 2.

Les enregistrements conventionnels des conversations en salle de marché restent aujourd’hui la source incontournable des travaux de la conformité. Ces enregistrements cumulent de nombreux défis : le volume de données, la multiplicité des types de téléphonie et d’enregistreurs, le bruit ambiant, la parole superposée – surtout si les lignes sont mixées entre elles, la mauvaise qualité audio due à la forte compression des enregistrements, la spontanéité de la parole, les jargons utilisés, les langues et les accents.

En résumé, Les données audio issues des enregistrements de salles de marché cumulent les défis les plus ardus de la reconnaissance vocale.
De façon intéressante, les plus grands défis pour la technologie s’avèrent être ceux liés au territoire européen, et d’une façon générale aux territoires hors Amériques : il s’agit de la diversité des langues parlées par les traders, des nombreux emprunts à l’anglais dans les conversations non-anglophones et surtout de la prévalence des accents non-natifs dans les conversations anglophones.

Il a donc fallu pousser les technologies neuronales encore plus loin pour répondre à ces défis spécifiques (cf. encadré 2) et répondre aux besoins concrets des salles de marché.

Retours d’expérience d’un déploiement pour une BFI

« Ce déploiement systématique du Speech-to-Text en salle de marché, est, à notre connaissance, l’un des premiers en son genre au niveau mondial ».

Ainsi nous avons déployé une technologie de reconnaissance vocale innovante à grande échelle dans la salle de marché de Londres d’une BFI globale. La chaîne de traitement est entièrement automatisée, y compris l’extraction des enregistrements d’appels, issus des différents enregistreurs concernés (figure 3). Les transcriptions des appels sont indexées de façon unifiée avec les autres canaux de communications, à savoir e-mails et messageries instantanées. L’équipe conformité traite les alertes issues des conversations téléphoniques dans le même outil que les autres alertes, et peut croiser les informations entre sources. La mise en place de la nouvelle chaîne de traitement, incluant le Speech-to-Text, a déjà permis à l’équipe de découvrir un plus grand nombre d’alertes pertinentes. Le niveau de qualité de la technologie de reconnaissance vocale (Speech-to-Text) sur les enregistrements d’appels des traders a été évalué pendant plusieurs mois sur données réelles par la conformité et la précision de transcription a été déclarée suffisamment élevée pour être utilisée quotidiennement (cf. encadré 2).
Ce déploiement systématique du speech-to-text en salle de marché, est, à notre connaissance, l’un des premiers en son genre au niveau mondial.

Par ailleurs, depuis la mise en place de la solution de transcription vocale, de nouvelles applications dérivées se font jour, qui dépassent les usages conformité, pour toucher à des enjeux de performance métier. La conformité est initiatrice d’une innovation technologique qui bénéficie à terme à l’ensemble de la banque.

Une chaîne de traitement est entièrement automatisée

Une chaîne de traitement est entièrement automatisée

Schéma de la chaine de traitement déployée à Londres pour une BFI globale. Les enregistrements des traders en salle de marché sont systématiquement extraits et transcrits en texte pour être indexés au même titre que les e-mails et les messageries instantanée, puis revus par l’équipe Conformité (« compliance officers »).

Perspective : la conformité fer de lance de la capitalisation globale des données

« Les défis de capitalisation et de traitement de données auxquels doit répondre la conformité sont générateurs d’innovation et d’accélération de la transformation digitale. »

La transformation et la maturation des départements de conformité depuis quelques années les positionnent aujourd’hui naturellement comme fers de lance de la capitalisation des données de l’entreprise. En effet, les données impactées par les différentes réglementations sont de nature très diverse, tant en termes de sources que de forme : données internes comme externes, données structurées comme non-structurées, données textuelles comme audio ou vidéo. Les défis de capitalisation et de traitement de données auxquels doit répondre la conformité ont ainsi des spectres très larges et sont générateurs d’innovation et d’accélération de la transformation digitale.

Ainsi, l’odyssée de la technologie vocale au sein de la banque ne fait que commencer, et ce n’est pas un hasard si elle commence par la conformité.

Les nouvelles obligations MIFID II pour les communications

Les obligations de record keeping déjà présentes sous MIFID I sont les suivantes :

  • périmètre : chaque ordre client, et chaque décision relative à une transaction ; chaque transaction ;
  • ces enregistrements doivent être conservés 5 ans ;
  • ils doivent demeurer accessibles pour les autorités compétentes : accès immédiat le cas échéant ; fichier permettant de reconstituer chaque étape de la transaction, devant contenir l’ensemble des informations afférentes aux modifications éventuelles, sécurisé ne pouvant pas être modifié a posteriori (typiquement via le stockage dans une archive WORM « Write Once, Read Many ») ;
  • les autorités compétentes établissent la liste des données qui doivent être conservées

Les obligation supplémentaire avec MIFID II sont les suivantes :

  • Article 16 « An investment firm shall arrange for records to be kept of all services, activities and transactions undertaken by it which shall be sufficient to enable the competent authority to fulfil its supervisory tasks and to perform the enforcement actions under this Directive, Regulation (EU) No 600/2014, Directive 2014/57/EU and Regulation (EU) No 596/2014, and in particular to ascertain that the investment firm has complied with all obligations including those with respect to clients or potential clients and to the integrity of the market.“
  • ainsi il est requis de communiquer une information suffisante pour que les régulateurs puissent effectuer leurs contrôles en relation avec les abus de marché et la protection des clients ; il est donc induit que les régulateurs pourront utiliser ces informations dans le cadre de leurs contrôles, y compris pour contrôler la conformité à ces réglementations connexes.

Enfin, MiFID II est associé aux normes techniques ESMA suivantes :

  • les PSI doivent avoir une organisation effective afin d’être en conformité avec les obligations de record keeping ;
  • le management des PSI doit exercer un contrôle effectif sur la politique et les procédures relatives à ces obligations ;
  • les PSI doivent avoir une politique précise concernant l’enregistrement des conversations, et doivent avoir déterminé quelles communications rentrent dans le périmètre des enregistrements ;
  • ces procédures ne doivent pas adhérer à des technologies particulières afin de pouvoir être mise à jour au gré des évolutions technologiques ;
  • les PSI doivent former leurs collaborateurs sur ces sujets ;
  • les PSI doivent surveiller périodiquement leurs enregistrements afin d’assurer la Conformité des communications ;
  • les PSI doivent être en mesure de présenter leur dispositif (politique, procédures et surveillance effective du management) auprès des autorités compétentes.

L’obligation de ne pas adhérer à une solution particulière et pouvoir suivre les évolutions technologiques tend à favoriser les approches « best-of-breed » par rapport aux silos fonctionnels parfois poussés par les équipementiers.
L’obligation de surveillance périodique pour assurer la conformité des communications est sujette à interprétation quant à la périodicité, mais dans tous les cas, celle-ci devra être justifiée au sein du dispositif.

Quand les réseaux de neurones apprennent le langage des traders

Les enregistrements d’appels des traders sont des données audio de nature particulièrement adverse. Elles cumulent notamment les difficultés répertoriées comme les moins bien résolues aujourd’hui par la technologie, à savoir : données bruitées, audio de mauvaise qualité, diversité de langues et accents non-natifs. La spontanéité des échanges et les jargons utilisés complètent le tableau.
Atteindre un niveau de qualité suffisant pour être validé en production par l’équipe conformité a donc nécessité de pousser la technologie plus loin. Si le moteur MediaSpeech utilisait déjà des réseaux de neurone profonds, ce sont de nouvelles topologies récurrentes qui ont été développées, en même temps que des nouvelles approches de sélection et d’augmentation de donnée, sans mentionner un travail d’adaptation spécifique au langage des traders. La copie d’écran ci-dessous (figure 4.) montre un résultat de transcription sur un enregistrement de salle de marché rendu publique par le régulateur américain, résultat obtenu avec la version de moteur standard validé d‘abord en salle de marché de BFI à Londres.
L’apprentissage d’un modèle de réseau de neurone profond prend typiquement plusieurs semaines sur plusieurs milliers de cœurs GPU. Même s’il reste des progrès à faire pour accroitre encore la précision et la robustesse de la transcription dans les conditions adverses, la performance impressionnante de ces réseaux de neurones profonds laisse penser qu’ils capturent des informations plus « profondes » qu’on ne croit sur le langage conversationnel humain, et celui des traders n’y échappe pas.

Exemple de transcription en Speech-to-Text

Interface visuelle avec la transcription d’une conversation issue du scandale Enron. Le moteur tente de séparer locuteurs et tours de parole et attribue un score de confiance à chaque mot transcrit. Les mots de confiance élevée sont en vert, et ceux de confiance faible en rouge. Ici la précision de transcription de l’extrait est très élevée. L’accent américain est, il est vrai, le plus aisé pour les systèmes de reconnaissance vocale.

Source: MediaSpeech Source : copie d’écran MediaSpeech, copyright Bertin IT

1 BCE, (2016), “Financial stability review, May 2016”
2 Rocchi, J-M., (2017), «Non-Conformité réglementaire. Vers un nouveau risque majeur pour les banques et les sociétés de gestion d’actifs?», Revue Banque N°814, Décembre
3 FCA, (2016) Communiqué de presse – FCA fines five banks £1.1 billion for FX failings and announces industry-wide remediation program
4 Nabeth Halber, A., (2018), «Les machines plus fortes que les humains en transcription de parole? Démêler mythe et réalité», Revue Banque N°817, Février

A propos de l’auteur

Ariane Nabeth-Halber, Directrice, ligne stratégique « Speech », Bertin IT ; Membre du board de LT-Innovate, the Language Technology Industry association ; Experte et Reviewer auprès de la Commission Européenne ; Docteure en Informatique et en traitement du Signal

2018-11-13T12:47:50+00:0009/2018|Blog|