logo móvil
Contáctanos

Adaptando sistemas de reconocimiento de voz comerciales para palabras nuevas

Autores: Fadel, Wiam; Bouchentouf, Toumi; Buvet, Pierre-André; Bourja, Omar

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Adaptando sistemas de reconocimiento de voz comerciales para palabras nuevas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sistemas de reconocimiento de voz
Palabras fuera del vocabulario
Sistemas de diálogo
Asistentes robóticos
Algoritmos de distancia
Algoritmo de post-procesamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los sistemas actuales de reconocimiento de voz con vocabularios fijos tienen dificultades para reconocer palabras fuera del vocabulario (OOV), como nombres propios y palabras nuevas. Esto lleva a malentendidos o incluso fallos en los sistemas de diálogo. Asegurar un reconocimiento de voz efectivo es crucial para el correcto funcionamiento de los asistentes robóticos. Los acentos no nativos, el nuevo vocabulario y las voces envejecidas pueden causar fallos en un sistema de reconocimiento de voz. Si esta tarea no se ejecuta correctamente, el robot asistente inevitablemente producirá respuestas falsas o aleatorias. En este artículo, utilizamos un enfoque estadístico basado en algoritmos de distancia para mejorar la corrección de OOV. Desarrollamos un algoritmo de post-procesamiento para combinarlo con un modelo de reconocimiento de voz. En este sentido, comparamos dos algoritmos de distancia: Damerau-Levenshtein y la distancia de Levenshtein. Validamos el rendimiento de los dos algoritmos de distancia junto con cinco modelos de reconocimiento de voz disponibles en el mercado. Damerau-Levenshtein, en comparación con el algoritmo de distancia de Levenshtein, logró minimizar la Tasa de Error de Palabras (WER) al utilizar el conjunto de pruebas marroquí-francés con cinco sistemas de reconocimiento de voz, a saber, VOSK API, Google API, Wav2vec2.0, SpeechBrain y modelos preentrenados de Quartznet. Nuestro método de post-procesamiento funciona independientemente de la arquitectura del reconocedor de voz, y sus resultados en nuestro conjunto de pruebas marroquí-francés superaron a los cinco sistemas de reconocedores de voz disponibles en el mercado elegidos.

Otros recursos que podrían interesarte

Temas Virtualpro