Bertin IT présente MediaSpeech v6, sa dernière solution de transcription Parole-Texte multilingue – et ouvre la voie à l’ère des communications augmentées

MediaSpeech® offre les meilleures capacités du marché en matière d’exploitation et d’analyse en profondeur des bases multimédias et des télécommunications – et ouvre la voie à l’ère des communications augmentées.

Paris, le 4 juin 2019 – Bertin IT (Groupe CNIM) annonce la disponibilité de la nouvelle version de MediaSpeech®, sa solution de transcription vocale multilingue qui permet, en convertissant les pistes audio en transcriptions texte interrogeables, d’indexer, rechercher et analyser des sources audio et vidéo, ainsi que des télécommunications. MediaSpeech® se décline aussi à présent en version « live » sur des flux audio en temps réel et ouvre la voie à de nouvelles applications de communications interactives et augmentées.

Grâce aux réseaux de neurones profonds (ou deep learning) aujourd’hui très présents dans les systèmes d’Intelligence Artificielle, MediaSpeech® s’appuie sur une modélisation extrêmement fine de l’espace acoustique, robuste face aux variabilités des locuteurs (débit, accents, …) et des conditions sonores, et offre ainsi une transcription encore plus précise et plus rapide.

La solution permet :

  • la transcription parole-texte avec chaque mot transcrit à la milliseconde et doté d’un score de confiance de reconnaissance,
  • la détection automatique de la langue parlée (LID),
  • la segmentation automatique des tours de parole et des locuteurs avec reconnaissance de leur genre,
  • l’identification du locuteur via une base biométrique,
  • l’adaptation automatique ou semi-automatique des vocabulaires et des domaines,

et ce, pour 17 langues.

MediaSpeech® possède plusieurs déclinaisons : déployé sur site ou en mode SaaS, hébergé dans le cloud privé de Bertin IT, MediaSpeech® Factory permet de traiter de gros volumes de fichiers avec des performances garanties ; une toute nouvelle déclinaison MediaSpeech® Live est capable de transcrire au fil de l’eau un flux audio ce qui rend possible des applications temps réel innovantes — voice chatbot, « call-bot », téléconseiller augmenté (le concept de téléconseiller augmenté consiste à assister le conseiller pendant l’appel, en l’allégeant par exemple de tâches de recherche, d’ouverture d’application ou de saisies, ce qui permet de fluidifer et améliorer la qualité du dialogue.)…

« Originellement développée par la société Vecsys, rachetée par Bertin en 2011, MediaSpeech® était initialement dédiée aux applications liées à la Défense et à la Sécurité » explique Yves Rochereau, Directeur général de Bertin IT. « Les équipes R&D de Bertin IT ont travaillé pendant plusieurs années à enrichir l’outil et à élargir ses domaines d’application. MediaSpeech® adresse aujourd’hui des marchés exigeants, tels que les groupes médias, les sociétés de veille audiovisuelle, les centres de contact, les salles de marchés des grandes banques, qui l’utilisent pour indexer, rechercher, analyser les contenus audio et vidéo à des fins de veille, d’alerte, d’information ou pour la mise en conformité avec la réglementation bancaire. Nous sommes aujourd’hui très optimistes quant aux possibilités qu’offrent les nouvelles moutures de MediaSpeech®, d’autant que des déploiements majeurs sont d’ores et déjà signés. »

Parmi les principales améliorations apportées par la nouvelle version de MediaSpeech® :

  • La déclinaison MediaSpeech® Live pour le traitement des flux audio en temps réel
  • De nouveaux modèles neuronaux rendant la transcription deux à trois fois plus rapide et toujours plus précise
  • Le passage en « full » neuronal de tous les modules de traitement de parole : la détection de parole (VAD), la segmentation en locuteurs (Diarization), pour encore plus de précision
  • La facilitation du process d’installation, le renforcement de la sécurité et de nouvelles interfaces de supervision
  • Un module d’identification de la langue (LID) entièrement neuronal, présentant une précision accrue, même sur des portions relativement courtes de parole

« Il s’agit de la première offre commerciale d’identification de la langue à être entièrement neuronale. Au cours des évaluations réalisées, ce module s’est révélé non seulement meilleur que les systèmes dont nous disposions précédemment, mais aussi supérieur, à date, aux résultats des laboratoires en pointe sur le sujet » précise Samir Bennacef, directeur R&D Speech de Bertin IT. « MediaSpeech® cumule aujourd’hui une excellence technologique et une souplesse fonctionnelle uniques sur le marché » complète Ariane Nabeth Halber, Directrice Speech solutions de Bertin IT. « Sa capacité à tourner en SaaS comme sur site, à gérer des fichiers en « batch » comme des flux audio temps réel, sur l’ensemble des langues du catalogue, est un atout indéniable. A cela s’ajoute la haute précision du moteur qui a remporté dernièrement nombre de benchmarks de clients, que ce soit contre des solutions de grandes sociétés US ou contre des solutions de fournisseurs locaux. »

La version 6 de MediaSpeech® est d’ores et déjà installée chez plusieurs clients de Bertin IT, et notamment dans une grande banque française de financement et d’investissement. La déclinaison MediaSpeech Live vient également d’être livrée à un autre grand groupe bancaire pour assister ses centres de contact téléphonique. D’autres contrats sont attendus très prochainement pour cette nouvelle version de Mediaspeech®.

Télécharger le communiqué