Seleziona una pagina

Home Blog Stato dell’arte della traduzione automatica di Ubiqus

Stato dell’arte della traduzione automatica di Ubiqus

Il Gruppo Ubiqus lancia la versione 2.0 di OpenNMT-py

Fedele alla sua strategia di innovazione continua, il Gruppo Ubiqus occupa da quasi quattro anni una posizione predominante nell’ambito delle soluzioni di traduzione automatica basata sulle reti neurali. In particolare, la società sviluppa, anima e potenzia con dinamismo e determinazione il toolkit OpenNMT-py, un supporto per numerosi programmi di ricerca e sviluppo all’interno di rinomate aziende e università.
 

A proposito, cos’è la NMT?

OpenNMT include la sigla NMT, acronimo di Neural Machine Translation. Secondo Wikipedia, , la traduzione automatica neurale, in italiano, è un approccio alla traduzione automatica che sfrutta una rete neurale artificiale al fine di prevedere la probabilità di una sequenza di parole, modellizzando generalmente intere frasi in un unico modello integrato.
Si tratta della famosa Intelligenza Artificiale (IA), che ha fatto passi da gigante negli ultimi quattro anni nel campo del trattamento del linguaggio naturale. In pratica, la traduzione automatica neurale permette di tradurre in tempo reale un gran numero di informazioni con grande precisione.
 

Al principio: OpenNMT

OpenNMT è un framework (una piattaforma software). Si tratta di un sistema di traduzione neurale Open Source, sviluppato originariamente da Harvard NLP Group (NLP è l’acronimo di Natural Language Processing, il trattamento del linguaggio naturale – https://nlp.seas.harvard.edu/).
Lanciato nel dicembre 2016, è composto da due progetti distinti, uno dei quali, denominato OpenNMT-py, è gestito dai ricercatori del Gruppo Ubiqus e conta diverse migliaia di utenti e collaboratori del mondo accademico e industriale.

Vincent Nguyen, presidente del Gruppo Ubiqus e CTO, sottolinea:

Se esistono già strumenti di traduzione automatica affidabili per il grande pubblico come Google Translate, il Toolkit del progetto OpenNMT consente di andare ben oltre.

Vincent Nguyen

Président

I vantaggi del progetto OpenNMT-py gestito da Ubiqus sono i seguenti:

  • La qualità dei risultati è eccellente (vedere il punteggio BLEU sotto);
  • Può essere facilmente integrato in un contesto di workflow professionale grazie alle sue API aperte, una documentazione completa e una comunità attiva;
  • I motori di traduzione possono essere allenati e adattati a diverse discipline e settori specifici (legale, medico, finanziario, ecc.).

Basandosi su questo framework, il nostro team R&S sviluppa modelli di apprendimento specifici e molto efficienti.

 

OpenNMT-py 2.0 per allenare i nostri motori più velocemente

Annunciato il 25 settembre 2020, Ubiqus ha messo a disposizione di tutti il frutto di un lavoro di diversi mesi:
la versione 2.0 di OpenNMT-py.

François Hernandez, AI Team Lead à Ubiqus:

L’idea principale di questa versione è il rinnovamento (quasi) integrale del processo di caricamento dei dati. Emerge un nuovo paradigma “dinamico” che consente di applicare al volo l’elaborazione dei dati durante l’apprendimento del modello.

François Hernandez

AI Team Lead

Questa nuova versione del framework OpenNMT-py offre numerosi vantaggi, tra cui:

  • Eliminare o ridurre drasticamente il pre-trattamento necessario per l’allenamento di un modello;
  • Migliorare e semplificare le possibilità di aumento e manipolazione dei dati mediante operazioni rapidissime.

Queste trasformazioni possono essere metodi di tokenizzazione specifici, filtri o qualsiasi elaborazione personalizzata che gli utenti desiderano implementare.

Per Ubiqus, lo scopo di questo nuovo sistema è chiaro: mantenere la posizione di leader nell’ambito della personalizzazione dei motori con i dati del cliente. All’inizio del progetto, questo know-how si è manifestato attraverso la creazione di motori di traduzione dedicati a settori semantici specifici come quello finanziario, legale, tecnico o medico. Così (fatto assai raro sul mercato) i motori di traduzione specializzati di Ubiqus rappresentano oggi circa il 20% dei nostri motori, che sono all’incirca 300.

Ubiqus ha da sempre valorizzato l’allenamento dei motori settoriali (finanziario, legale, ecc.)

Tuttavia, da qualche mese a questa parte, abbiamo incentrato i nostri sforzi nella creazione di motori personalizzati con i dati dei nostri clienti. Il risultato? I motori di traduzione automatica di Ubiqus offrono un livello di qualità superiore rispetto ai motori di traduzione generici disponibili sul mercato come Google Translate.

Come possiamo esserne certi? Grazie a uno strumento indipendente e relativamente semplice da utilizzare, l’algoritmo BLEU.

 

Cos’è l’algoritmo BLEU nella MT?

L’algoritmo BLEU è diventato la misura internazionale per la valutazione della qualità di un sistema di traduzione automatica. BLEU sta per BiLingual Evaluation Understudy. Si tratta di un confronto a posteriori e standardizzato tra la traduzione automatica e una traduzione umana di riferimento.
Per calcolare un punteggio BLEU, bisogna disporre di due file:

  1. il Riferimento: si tratta della traduzione “umana” di una serie di dati di prova.
  2. il Sistema: è il risultato della traduzione automatica, generato dal modello da valutare, della stessa serie di dati di prova utilizzata per il riferimento.

A partire da questi due file, i ricercatori applicano uno script la cui implementazione di riferimento è “sacrebleu” e che calcolerà il punteggio BLEU.

Si tratta di un confronto (letteralmente) parola per parola o piuttosto per gruppi di parole tra la traduzione “umana” di riferimento e la traduzione generata dal motore. Il risultato? Viene assegnato un punteggio. Più l’esito dell’algoritmo BLEU sarà vicino a 100, migliore sarà la qualità della traduzione automatica.

 

Come aumentare il proprio punteggio BLEU?

I motori di traduzione generici di Ubiqus superano con una media dell’8% il punteggio BLEU di Google Translate.

Qual è il punteggio BLEU dei motori Ubiqus? Da diversi anni, i motori di traduzione di Ubiqus raggiungono un punteggio BLEU mediamente superiore dell’8% rispetto a Google.
Storicamente, i ricercatori di Ubiqus ottenevano questo dato misurandosi con gli altri motori di traduzione durante una competizione internazionale, la Conferenza sulla Traduzione Automatica (precedentemente nota come Workshop sulla traduzione automatica statistica, gestita dall’EMNLP o dall’ACL).

Per questo concorso, gli organizzatori sviluppano delle serie di dati provenienti da fonti pubbliche e invitano attori della NMT, accademici e aziende a partecipare a un torneo amichevole e a pubblicare i risultati dei loro motori di traduzione più recenti.
Le prove cambiano ogni anno, anche se da anni è costante la traduzione delle “Notizie” dall’inglese al tedesco. Numerosi articoli di ricerca sono stati pubblicati a proposito di questa attività, chiamata WMT. La serie di dati di prova (test set) per valutare le prestazioni varia ogni anno.
Un punteggio BLEU comparativo è stato calcolato per tutti i set di prova dal 2014 al 2018 per le prestazioni tradotte dall’inglese al tedesco:

Punteggio BLEU/strong> 2014 2015 2016 2017 2018 Moyenne
Google Translate 29.5 32.4 36.3 30.4 44.9 34.7
DeepL 30.9 33.4 39.4 31.7 47.6 36.6
Ubiqus NMT 34.0 34.7 39.3 33.3 46.9 37.6

 

Risulta evidente che Ubiqus NMT sia di gran lunga migliore rispetto a Google Translate e globalmente migliore rispetto a DeepL.

Questo tipo di benchmark è interessante dal punto di vista intellettuale, ma non riflette a sufficienza i progressi dei motori di traduzione che sviluppiamo a partire dai nostri dati proprietari. Questo spiega perché di recente non abbiamo partecipato alla prova WMT.

Concentriamo i nostri sforzi sulla “vita reale” e, in particolare, sui clienti che puntano a ridurre il post-editing da parte di un traduttore su un documento tradotto automaticamente. Infatti, proponiamo loro di costruire su misura il proprio motore: dopo la personalizzazione di un motore di traduzione con i dati di un cliente da parte di Ubiqus, il punteggio BLEU può fare un salto di qualità pari o superiore al 20%!

La personalizzazione di un motore di traduzione con i dati del cliente può migliorare il punteggio BLEU del 20%

In altre parole: un cliente che utilizzerà un motore di traduzione standard di Ubiqus otterrà certamente una qualità di traduzione significativamente superiore rispetto a quella offerta da Google Translate. Ma se lo stesso cliente permetterà a Ubiqus di allenare il motore di traduzione standard attraverso i propri dati, il livello di qualità non potrà che aumentare! Un risparmio di tempo prezioso per un investimento moderato nella personalizzazione.

… senza trascurare la sicurezza e la riservatezza

Un altro aspetto molto apprezzato dai nostri clienti rispetto a Google Translate: la sicurezza dei loro dati. Non si tratta solo di ottenere migliori risultati di traduzione. Le nostre aziende e i nostri clienti devono altresì essere certi che i loro dati siano al sicuro.

E nel campo dei dati privati, il controllo è indispensabile!

 

U-Translate per un accesso semplificato a Ubiqus NMT

Per facilitare l’accesso ai nostri motori di traduzione standard o ai motori che Ubiqus ha personalizzato in base alle richieste del cliente, Ubiqus ha lanciato nel 2019 la piattaforma online U-Translate.

U-Translate: la porta d’accesso sicura alla traduzione automatica, by Ubiqus.

Questa piattaforma, completamente riservata, offre ai clienti di Ubiqus un’interfaccia semplice e intuitiva per tradurre un testo al volo o un documento Office conservandone il formato. Qui, la NMT di Ubiqus è disponibile a tutti i professionisti, senza che sia necessaria alcuna installazione tecnica specifica. Anche perché questa soluzione online continua a beneficiare degli ultimi miglioramenti:

  • aggiunta recente di una funzione di gestione della terminologia; ;
  • presa in considerazione del contesto (ciò che precede e segue la traduzione di un segmento) per la concordanza del genere (maschile, femminile) o del numero (singolare/plurale): a tal proposito, vedere l’articolo di Vincent Nguyen.

Secondo la nostra esperienza, l’accesso semplificato proposto da U-Translate è ideale per i clienti della traduzione, che siano occasionali o regolari.
Gli utenti frequenti, dal canto loro, potranno fare appello alle nostre API per integrare, ad esempio, la nostra tecnologia in uno strumento CAT o in un flusso continuo di traduzione di contenuti online.

 

Un’ultima osservazione

Cosa va tenuto a mente di questo articolo? Ubiqus è un importante attore tecnologico nel campo della traduzione automatica.
Grazie allo sviluppo del framework OpenNMT-py, Ubiqus è più all’avanguardia rispetto ai concorrenti nel settore dei motori di traduzione destinati ai professionisti. I nostri motori di traduzione standard specializzati nei settori finanziario, giuridico, medico, marketing o tecnico sono tra i più efficienti sul mercato.

I professionisti che necessitano occasionalmente o regolarmente traduzioni scopriranno in U-Translate uno strumento online, semplice e sicuro che risponde alle loro esigenze con una traduzione di qualità; i clienti che hanno bisogno di traduzioni frequenti potranno contattarci per un’analisi su misura, che potrà portare alla personalizzazione di un motore dedicato e all’utilizzo delle nostre API.

Per concludere, Ubiqus offre una soluzione NMT su misura per tutti.

Scopri
altri articoli

B2B: perché il video deve entrare a far parte della vostra strategia nel 2021

Se le aziende B2C, che rivolgono i propri prodotti e servizi direttamente al consumatore, utilizzano sempre di più i supporti video, siamo meno abituati a vedere il loro utilizzo da parte delle aziende B2B. Tuttavia, seguendo l’attuale trend del video marketing, sono sempre più numerose le aziende che offrono i propri servizi ad altre aziende utilizzando questo canale nella loro strategia di marketing e comunicazione.

leggi tutto

Come tradurre i sottotitoli?

Il nostro team vi rivela i segreti e i retroscena del sottotitolaggio: come tradurre i sottotitoli? Chi interviene nel processo creativo? Quali strumenti sono utilizzati? Vi spieghiamo tutto!

leggi tutto
luctus ut ut elit. venenatis, libero ut