Home Blog Etat de l’art de la traduction machine d’Ubiqus au 2ème semestre 2020

Etat de l’art de la traduction machine d’Ubiqus au 2ème semestre 2020

Le Groupe Ubiqus lance la version 2.0 de OpenNMT-py

Fidèle à sa stratégie d’innovation permanente, le Groupe Ubiqus occupe, depuis près de quatre ans, une position de premier de cordée dans le domaine des solutions de traduction machine basée sur les réseaux neuronaux. En particulier, la société développe, anime, améliore avec dynamisme et détermination le toolkit OpenNMT-py, support à de nombreux programmes de recherche et développement au sein d’entreprises et d’universités de renom.

 

Mais au fait, c’est quoi la NMT déjà ?

Dans OpenNMT, il y a… NMT, acronyme de Neural Machine Translation. Selon Wikipedia, la traduction automatique neuronale, en français, est une approche de la traduction automatique qui utilise un réseau neuronal artificiel pour prédire la probabilité d’une séquence de mots, modélisant généralement des phrases entières dans un seul modèle intégré.
C’est l’utilisation de la fameuse Intelligence Artificielle (IA), qui a fait des progrès considérables ces quatre dernières années dans le domaine du traitement du langage naturel. Concrètement, la traduction automatique neuronale permet de traduire, en temps réel, un grand nombre d’informations avec grande précision.

 

Au commencement : OpenNMT

OpenNMT désigne un framework (une infrastructure logicielle). Il s’agit d’un système de traduction neuronale Open Source, développé à son origine par le Harvard NLP Group (NLP est l’acronyme de Natural Language Processing, le traitement du langage naturel – https://nlp.seas.harvard.edu/).
Lancé en décembre 2016, il est composé de deux projets distincts dont l’un, nommé OpenNMT-py, est administré par les chercheurs du Groupe Ubiqus et compte plusieurs milliers d’utilisateurs et de contributeurs issus du monde académique et industriel.

Vincent Nguyen, le Président du Groupe Ubiqus dont il est également le CTO, souligne :

S’il existe déjà des outils de traduction automatique grand public fiables comme Google Translate, le Toolkit du projet OpenNMT permet d’aller beaucoup plus loin.

Vincent Nguyen

Président

En effet, les atouts du projet OpenNMT-py administré par Ubiqus sont les suivants :

  • La qualité des résultats est excellente (voir score BLEU ci-dessous) ;
  • Il peut être intégré facilement dans un contexte de workflow professionnel grâce à ses API ouvertes, une documentation complète et une communauté active ;
  • Les moteurs peuvent être entraînés et adaptés pour un secteur ou un vertical particulier (juridique, médical, financier, etc.) .

En se basant sur ce framework, notre équipe R&D développe des modèles d’apprentissage spécifiques et très performants.

 

 

OpenNMT-py 2.0 pour entraîner nos moteurs plus rapidement

Annoncé le 25 septembre 2020, Ubiqus a offert à la communauté le fruit de son travail de plusieurs mois : la version 2.0 de OpenNMT-py.

François Hernandez, AI Team Lead à Ubiqus, s’enthousiasme :

L’idée majeure de cette version est la refonte – presque – complète du processus de chargement des données. Un nouveau paradigme « dynamique » fait son apparition, permettant d’appliquer des traitements aux données à la volée lors de l’apprentissage du modèle.

François Hernandez

AI Team Lead

Cette nouvelle version du framework OpenNMT-py présente de nombreux avantages, parmi lesquels :

  • Supprimer ou réduire drastiquement le prétraitement nécessaire à l’entrainement d’un modèle ;
  • Améliorer et simplifier les possibilités d’augmentation et de manipulation des données par des traitements à la volée.

Ces transformations peuvent être des méthodes de tokenisation spécifiques, des filtres ou tout traitement personnalisé que les utilisateurs souhaiteraient mettre en œuvre.

Pour Ubiqus, le but de ce nouveau système est clair : garder sa longueur d’avance dans la personnalisation de moteurs avec des données client. Au commencement du projet, ce savoir-faire s’est illustré dans la création de moteurs de traduction dédiés à un domaine sémantique comme la finance, le juridique, le technique ou le médical. Ainsi, fait rare sur le marché, les moteurs spécialistes d’un vertical d’Ubiqus représentent aujourd’hui environ 20% de nos quelques 300 moteurs.

Ubiqus s’est forgé une expertise dans l’entrainement de moteurs sectoriels (finance, juridique, etc.)

Mais depuis quelques mois, nos efforts se sont tournés vers la création de moteurs personnalisés avec les données de nos clients. Le résultat ?  Les moteurs de traduction automatique d’Ubiqus offrent un niveau de qualité supérieur aux moteurs génériques disponibles sur le marché comme Google Translate.

Comment s’en assurer ? Grâce à un outil indépendant et relativement simple à mettre en place, le score BLEU.

 

Qu’est-ce que le score BLEU en MT ?

Le Score BLEU est devenu la mesure internationale pour évaluer la qualité d’un système de traduction automatique. BLEU dans ce contexte n’est pas la couleur mais signifie BiLingual Evaluation Understudy. Il s’agit d’une comparaison a posteriori et standardisée entre la traduction machine et une traduction humaine de référence.
Pour calculer un score BLEU, il faut disposer de deux fichiers :

  1. la Référence : il s’agit du fichier de la traduction humaine (cible) d’un jeu de données de test (source).
  2. le Système : c’est le résultat de la traduction automatique, générée par le modèle à évaluer, pour exactement le même jeu de données de test que celui utilisé pour la référence.

À partir de ces deux fichiers, les chercheurs appliquent un script dont l’implémentation de référence est « sacrebleu » (disponible ici) et qui calculera le Score BLEU.
Il s’agit d’une comparaison (littéralement) mot-à-mot ou plutôt par groupes de mots entre la traduction humaine de référence et la traduction produite par le moteur. Le résultat ? Une note est attribuée. La qualité de la traduction automatique sera d’autant meilleure que le score BLEU sera proche de 100.

 

Comment booster son score BLEU ?

Les moteurs de traduction généralistes d’Ubiqus devance le score BLEU de Google Translate de 8% en moyenne

Alors qu’en est-il du score BLEU des moteurs Ubiqus ? Depuis plusieurs années, les moteurs d’Ubiqus atteignent toujours un score BLEU moyen supérieur de 8% à Google.
Historiquement, les chercheurs d’Ubiqus obtenaient cette donnée en se mesurant aux autres moteurs de traduction lors d’une compétition internationale, la Conférence sur la Traduction Machine Automatique (appelée précédemment Atelier sur la traduction machine statistique et animée par l’EMNLP ou l’ACL).
Pour ce concours, les organisateurs développent des jeux de données provenant de sources publiques et invitent les acteurs de la NMT, universitaires et entreprises à participer à un tournoi amical et à publier leurs résultats sur la base de leurs moteurs les plus récents.
Les tâches changent tous les ans mais une référence continue depuis des années est la traduction d’« Actualités » de l’anglais vers l’allemand. De nombreux articles de recherche ont été publiés sur la base de cette tâche qu’on appelle WMT. Le jeu de données test (test set) pour mesurer les performances change tous les ans.
Un score BLEU comparatif a été calculé pour tous les jeux de test des années 2014 à 2018 pour la tâche ‘Anglais à Allemand’ :

Score BLEU 2014 2015 2016 2017 2018 Moyenne
Google Translate 29.5 32.4 36.3 30.4 44.9 34.7
DeepL 30.9 33.4 39.4 31.7 47.6 36.6
Ubiqus NMT 34.0 34.7 39.3 33.3 46.9 37.6

 

On voit sans peine qu’Ubiqus NMT est nettement meilleur que Google Traduction et globalement mieux que DeepL.

Ce genre de Benchmark est intellectuellement intéressant mais ne reflète pas suffisamment les progrès enregistrés sur les moteurs que nous développons à partir de nos données propriétaires. C’est pourquoi nous n’avons pas participé à la tâche WMT récemment.

Nous concentrons nos efforts sur la « vraie vie » et, en particulier, sur nos clients désireux de réduire leurs efforts de post-édition par un traducteur d’un document traduit automatiquement. En effet, nous leur offrons de leur confectionner leur propre moteur : après personnalisation d’un moteur avec les données d’un client par Ubiqus, le score BLEU peut faire un bond en qualité jusqu’à +20% !

La personnalisation d’un moteur avec des données Client peut améliorer le score BLEU de 20%

En d’autres termes : un client qui utilisera un moteur « sur l’étagère » d’Ubiqus obtiendra déjà une qualité de traduction significativement supérieure à Google Translate. Mais mieux encore, si le même client permet à Ubiqus d’entrainer ce moteur sur l’étagère avec ses propres données, le client pourra alors voir son niveau de qualité s’envoler ! Un gain de temps précieux pour un investissement en customisation modéré.

 

…sans négliger la sécurité et la confidentialité

Autre point plébiscité par nos clients par rapport à Google Translate : la sécurisation de leurs données. Car il n’est pas tout d’obtenir de meilleurs résultats de traduction. Nos entreprises et organisations clientes ont également besoin de savoir que leurs données sont en sécurité.

Et dans le domaine des données privées, rien ne remplace le contrôle !
Ubiqus a ainsi fait le choix, depuis toujours, d’héberger lui-même ses données et celles de nos clients. Cela veut tout simplement dire que nos données ne sont pas dans un cloud (géré par AWS, Azure ou tout autre prestataire qui fournissent des To d’espaces dans des serveurs situés on ne sait où). Chez Ubiqus, nous avons la clé de notre local serveur (certes hébergé dans un data-center certifié ISO27001) ! Il n’est qu’à quelques kilomètres de notre siège social de Paris – La Défense. Une garantie de sécurité et de disponibilité pour l’ensemble de nos clients qui peuvent ainsi profiter à tout moment des bienfaits de leur traduction automatique personnalisée.

 

U-Translate pour un accès simplifié à Ubiqus NMT

Pour faciliter l’accès à nos moteurs sur l’étagère ou aux moteurs qu’Ubiqus a personnalisé aux couleurs d’un client, Ubiqus a lancé en 2019 la plateforme en ligne U-Translate.

U-Translate : le point d’entrée sécurisé à la traduction automatique, by Ubiqus.

Cette plateforme, totalement confidentielle, propose aux clients d’Ubiqus une interface simple et intuitive pour traduire du texte à la volée ou un document Office en en conservant le format. La NMT d’Ubiqus est ici disponible à tous les professionnels, sans aucune installation technique spécifique. D’autant plus que cette solution online continue de bénéficier des toutes dernières améliorations :

  • ajout récent d’une fonction de gestion de la terminologie ;
  • prise en considération du contexte (ce qui précède et suit la traduction d’un segment) pour la concordance en genre (masculin :féminin) ou nombre (singulier/pluriel) : voir l’article de Vincent Nguyen à ce sujet.

Selon notre expérience, l’accès simplifié proposé par U-Translate séduit les consommateurs occasionnels ou réguliers de traduction.
Les utilisateurs fréquents, quant à eux, pourront se tourner vers nos API afin d’intégrer notre technologie à un outil de TAO ou dans un flux continu de traduction de contenus en ligne par exemple.

 

Un dernier mot

Que retenir de cet article ? Ubiqus est un acteur technologique majeur du domaine de la traduction automatique.
Grâce à ses propres développements du framework OpenNMT-py, Ubiqus conserve une longueur d’avance sur ses concurrents dans le domaine des moteurs à destination des professionnels. Nos moteurs sectoriels « sur l’étagère » dans les domaines financier, juridique, médical, marketing ou technique font partie des plus performants du marché.

Les professionnels consommateurs occasionnels ou réguliers de traduction trouveront en U-Translate un outil en ligne, simple et sécurisé répondant à leurs besoins de traduction de qualité ; les consommateurs fréquents pourront nous contacter pour une étude personnalisée de leurs besoins qui conduira peut-être à la customisation d’un moteur dédié et à l’utilisation de nos API.

En conclusion, Ubiqus propose à chacun la solution NMT qui lui convient.

 

 

 

Photo by Kevin Ku on Unsplash

Découvrez
d’autres articles…

Et si on parlait de votre projet ?