Home Tecnologie Riconoscimento vocale automatico (ASR)

Riconoscimento vocale automatico (ASR)

Che cos’è il Riconoscimento vocale automatico?

Il Riconoscimento vocale automatico o Automatic Speech Recognition (ASR) è una tecnologia che permette di trascrivere i discorsi pronunciati oralmente.

Ubiqus utilizza una tipologia di ASR chiamata LVCSR (Large Vocabulary Continuous Speech Recognition), basata sul riconoscimento automatico di sequenze vocali brevi. Questa tecnologia consente di produrre trascrizioni di qualità sulla base di registrazioni audio di buona qualità. Negli ultimi anni la tecnologia ASR ha subito un processo di grande evoluzione e il nostro team di R&S contribuisce costantemente al suo sviluppo.

Questa tecnologia ci permette di trattare registrazioni vocali in cui viene utilizzato un linguaggio generico, ma anche settoriale (tecnico, giuridico, medico, ecc.).

 Il processo che conduce alla trascrizione finale si articola in 4 fasi:

1 | Rilevamento della voce

La fase iniziale consiste nell’identificazione, all’interno della registrazione, dei momenti in cui qualcuno sta parlando, per suddividere la traccia audio in segmenti. Lo strumento lavora singolarmente su ciascuno di questi segmenti.

2 | Diarizzazione

Dopodiché, è necessario individuare i diversi oratori che intervengono nel discorso, in modo da raggruppare i segmenti dello stesso parlante e poter attribuire correttamente gli interventi. A tal fine, lo strumento utilizza diversi motori, ognuno dei quali viene alimentato con una serie di dati specifici (lingue, voci). Questa tecnologia è in grado di riconoscere ogni minimo dettaglio del linguaggio, come gli accenti. Fino ad ora, abbiamo eseguito un trattamento “matematico” dei dati.

3 | Decodificazione

Solo una volta raggiunta questa fase, inizia il processo di trascrizione vera e propria. Per ogni segmento vocale viene fatto un elenco di sillabe (fonemi) possibili. Fino ad ora, nulla è ancora stato scritto: c’è soltanto un lungo elenco di possibilità, a ognuna delle quali corrisponde un punteggio diverso.

4 | Ricalcolo

Tra tutti i fonemi e le parole registrati durante la fase di allenamento iniziale, il computer seleziona quelli che compongono la frase più probabile (un po’ come un GPS identifica il percorso migliore) . È questa frase che viene trascritta all’interno del documento.

 

Questo procedimento viene applicato a tutti i segmenti vocali della registrazione al fine di ottenere la trascrizione integrale.

Una volta terminato questo processo automatico, il documento può essere riletto dai nostri professionisti, secondo la procedura tradizionale: il rilettore non controlla solamente il contenuto ma si assicura anche della corretta attribuzione e formattazione dei discorsi.

Per saperne di più sui nostri interfaccia di traduzione, contattateci e consultate i seguenti documenti relativi alle nostre API:

La combinazione tra competenze tecnologiche e umane tipica di Ubiqus

Siete abituati alla qualità dei servizi forniti da Ubiqus e vorreste testare la nuova tecnologia di trascrizione automatica? Provate! La trascrizione automatica offre il medesimo livello di qualità di una trascrizione classica. Infatti, il processo di trascrizione automatica potrà essere seguito da una rilettura “umana”, nel caso in cui lo vogliate… proprio come per una trascrizione classica!

I settori che utilizzano
le API di traduzione e i connettori

Haec subinde Constantius audiens et quaedam doctus, quem eum odisse iam conpererat lege communi

E per quanto riguarda il vostro progetto?

I clienti affermano di essere soddisfatti