Reconocimiento automático de voz (ASR)

Reconocimiento automático de voz

El reconocimiento automático de voz (ASR) es una tecnología que puede utilizarse para transcribir palabras habladas en texto escrito.

Ubiqus utiliza una forma de ASR, el Large Vocabulary Continuous Speech Recognition (LVCSR), basado en la identificación automática de secuencias de audio muy cortas. Esta tecnología permite realizar una transcripción de alta calidad, siempre que se disponga de una grabación de audio de alta calidad. El estado del arte del ASR ha evolucionado enormemente en los últimos años, y nuestro equipo de I+D está contribuyendo a su crecimiento permanente.

Nuestro método nos permite procesar tanto grabaciones con un vocabulario general, como aquellas con una terminología más específica (técnica, jurídica, médica, etc.).

 El proceso consta de 4 pasos:

1 | Detección de la actividad de la voz

En primer lugar, es importante identificar cuándo se habla durante la grabación, para cortar la banda sonora en segmentos. La máquina trabajará entonces con cada uno de estos segmentos.

2 | Diarización

A continuación, es importante identificar a los distintos hablantes de cada grabación, y agruparlos en segmentos según su identidad, resolviendo el problema de «¿quién habló cuándo?». Para ello, la máquina utiliza diferentes modelos que contienen datos específicos (idiomas, voz). De esa manera es capaz de diferenciar las sutilezas de un idioma (como los acentos). En este punto todavía estamos en el tratamiento «matemático» de los datos.

3 | Decodificación

Aquí es cuando comienza la transcripción real. Para ello, se establece una lista de posibles sílabas (fonemas) para cada segmento de audio. Por ahora, no se han generado frases completas, solo una larga lista de posibilidades, cada una con una puntuación (score).

4 | Nueva puntuación

El ordenador elige, de entre todos los fonemas y palabras aprendidas durante su entrenamiento inicial, los que tienen más probabilidades de construir la frase más precisa (algo parecido a cómo un GPS identifica la mejor ruta). Es esta frase la que se transcribe en el documento.

 

Este proceso se aplica a cada segmento de la grabación para producir, finalmente, la transcripción completa.

Al término de este proceso automatizado, nuestros equipos vuelven a leer el documento. Como hacemos con todos los documentos en Ubiqus Spain: además de verificar el contenido en su conjunto, el revisor también se asegurará de que el discurso se ha transcrito correctamente.

En Ubiqus combinamos la tecnología y la destreza humana

¿Estás acostumbrado a la calidad de los documentos de Ubiqus y sientes curiosidad por probar la transcripción automática? ¡Adelante! El nivel de calidad de la transcripción automática sigue siendo tan alto como el de la transcripción clásica. Además, una vez finalizada la transcripción automática, se lleva a cabo una revisión «humana», el mismo procedimiento que seguimos durante una transcripción clásica.

Los sectores que utilizan
las herramientas lingüísticas tecnológicas

Descubre nuestros servicios lingüísticos asociados a la tecnología para tu sector de actividad.

¿Y si hablamos de tu proyecto?

Nuestros clientes están satisfechos y lo confirman.