Adaptando sistemas de reconocimiento de voz comerciales para palabras nuevas
Autores: Fadel, Wiam; Bouchentouf, Toumi; Buvet, Pierre-André; Bourja, Omar
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Adaptando sistemas de reconocimiento de voz comerciales para palabras nuevas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sistemas de reconocimiento de voz
Palabras fuera del vocabulario
Sistemas de diálogo
Asistentes robóticos
Algoritmos de distancia
Algoritmo de post-procesamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los sistemas actuales de reconocimiento de voz con vocabularios fijos tienen dificultades para reconocer palabras fuera del vocabulario (OOV), como nombres propios y palabras nuevas. Esto lleva a malentendidos o incluso fallos en los sistemas de diálogo. Asegurar un reconocimiento de voz efectivo es crucial para el correcto funcionamiento de los asistentes robóticos. Los acentos no nativos, el nuevo vocabulario y las voces envejecidas pueden causar fallos en un sistema de reconocimiento de voz. Si esta tarea no se ejecuta correctamente, el robot asistente inevitablemente producirá respuestas falsas o aleatorias. En este artículo, utilizamos un enfoque estadístico basado en algoritmos de distancia para mejorar la corrección de OOV. Desarrollamos un algoritmo de post-procesamiento para combinarlo con un modelo de reconocimiento de voz. En este sentido, comparamos dos algoritmos de distancia: Damerau-Levenshtein y la distancia de Levenshtein. Validamos el rendimiento de los dos algoritmos de distancia junto con cinco modelos de reconocimiento de voz disponibles en el mercado. Damerau-Levenshtein, en comparación con el algoritmo de distancia de Levenshtein, logró minimizar la Tasa de Error de Palabras (WER) al utilizar el conjunto de pruebas marroquí-francés con cinco sistemas de reconocimiento de voz, a saber, VOSK API, Google API, Wav2vec2.0, SpeechBrain y modelos preentrenados de Quartznet. Nuestro método de post-procesamiento funciona independientemente de la arquitectura del reconocedor de voz, y sus resultados en nuestro conjunto de pruebas marroquí-francés superaron a los cinco sistemas de reconocedores de voz disponibles en el mercado elegidos.
Descripción
Los sistemas actuales de reconocimiento de voz con vocabularios fijos tienen dificultades para reconocer palabras fuera del vocabulario (OOV), como nombres propios y palabras nuevas. Esto lleva a malentendidos o incluso fallos en los sistemas de diálogo. Asegurar un reconocimiento de voz efectivo es crucial para el correcto funcionamiento de los asistentes robóticos. Los acentos no nativos, el nuevo vocabulario y las voces envejecidas pueden causar fallos en un sistema de reconocimiento de voz. Si esta tarea no se ejecuta correctamente, el robot asistente inevitablemente producirá respuestas falsas o aleatorias. En este artículo, utilizamos un enfoque estadístico basado en algoritmos de distancia para mejorar la corrección de OOV. Desarrollamos un algoritmo de post-procesamiento para combinarlo con un modelo de reconocimiento de voz. En este sentido, comparamos dos algoritmos de distancia: Damerau-Levenshtein y la distancia de Levenshtein. Validamos el rendimiento de los dos algoritmos de distancia junto con cinco modelos de reconocimiento de voz disponibles en el mercado. Damerau-Levenshtein, en comparación con el algoritmo de distancia de Levenshtein, logró minimizar la Tasa de Error de Palabras (WER) al utilizar el conjunto de pruebas marroquí-francés con cinco sistemas de reconocimiento de voz, a saber, VOSK API, Google API, Wav2vec2.0, SpeechBrain y modelos preentrenados de Quartznet. Nuestro método de post-procesamiento funciona independientemente de la arquitectura del reconocedor de voz, y sus resultados en nuestro conjunto de pruebas marroquí-francés superaron a los cinco sistemas de reconocedores de voz disponibles en el mercado elegidos.