Adaptando sistemas de reconocimiento de voz comerciales para palabras nuevas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Adaptando sistemas de reconocimiento de voz comerciales para palabras nuevas

Autores: Fadel, Wiam; Bouchentouf, Toumi; Buvet, Pierre-André; Bourja, Omar

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Adaptando sistemas de reconocimiento de voz comerciales para palabras nuevas

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sistemas de reconocimiento de voz

Palabras fuera del vocabulario

Sistemas de diálogo

Asistentes robóticos

Algoritmos de distancia

Algoritmo de post-procesamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los sistemas actuales de reconocimiento de voz con vocabularios fijos tienen dificultades para reconocer palabras fuera del vocabulario (OOV), como nombres propios y palabras nuevas. Esto lleva a malentendidos o incluso fallos en los sistemas de diálogo. Asegurar un reconocimiento de voz efectivo es crucial para el correcto funcionamiento de los asistentes robóticos. Los acentos no nativos, el nuevo vocabulario y las voces envejecidas pueden causar fallos en un sistema de reconocimiento de voz. Si esta tarea no se ejecuta correctamente, el robot asistente inevitablemente producirá respuestas falsas o aleatorias. En este artículo, utilizamos un enfoque estadístico basado en algoritmos de distancia para mejorar la corrección de OOV. Desarrollamos un algoritmo de post-procesamiento para combinarlo con un modelo de reconocimiento de voz. En este sentido, comparamos dos algoritmos de distancia: Damerau-Levenshtein y la distancia de Levenshtein. Validamos el rendimiento de los dos algoritmos de distancia junto con cinco modelos de reconocimiento de voz disponibles en el mercado. Damerau-Levenshtein, en comparación con el algoritmo de distancia de Levenshtein, logró minimizar la Tasa de Error de Palabras (WER) al utilizar el conjunto de pruebas marroquí-francés con cinco sistemas de reconocimiento de voz, a saber, VOSK API, Google API, Wav2vec2.0, SpeechBrain y modelos preentrenados de Quartznet. Nuestro método de post-procesamiento funciona independientemente de la arquitectura del reconocedor de voz, y sus resultados en nuestro conjunto de pruebas marroquí-francés superaron a los cinco sistemas de reconocedores de voz disponibles en el mercado elegidos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro