logo móvil
Contáctanos

Mejorando el Reconocimiento de Voz Árabe Diacrítico: Modelos Basados en Transformadores con Aprendizaje por Transferencia y Aumento de Datos Híbrido

Autores: Alaqel, Haifa; El Hindi, Khalil

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Mejorando el Reconocimiento de Voz Árabe Diacrítico: Modelos Basados en Transformadores con Aprendizaje por Transferencia y Aumento de Datos Híbrido


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

árabe
Marcas diacríticas
Pronunciación
Reconocimiento automático de voz
Aprendizaje automático
Aumento de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El árabe diacrítico (DA) se refiere al texto árabe con marcas diacríticas que guían la pronunciación y aclaran los significados, haciendo que su reconocimiento sea crucial para una interpretación lingüística precisa. Estas marcas diacríticas (vocales cortas) influyen significativamente en el significado y la pronunciación, y su reconocimiento preciso es vital para la efectividad de los sistemas de reconocimiento automático de voz (ASR), particularmente en aplicaciones que requieren alta precisión semántica, como los servicios de traducción habilitados por voz. A pesar de su importancia, aprovechar técnicas avanzadas de aprendizaje automático para mejorar el ASR para el árabe diacrítico ha permanecido poco explorado. Un desafío clave en el desarrollo del ASR DA es la disponibilidad limitada de datos de entrenamiento. Este estudio introduce un enfoque basado en transformadores que aprovecha el aprendizaje por transferencia y la augmentación de datos para abordar estos desafíos. Utilizando un modelo de representación de voz multilingüe (XLSR) preentrenado en 53 idiomas, lo ajustamos finamente en DA e integramos la clasificación temporal conexionista (CTC) con transformadores para mejorar el rendimiento. Las técnicas de augmentación de datos, que incluyen ajuste de volumen, cambio de tono, alteración de velocidad y estrategias híbridas, mitigan aún más las limitaciones de datos, reduciendo significativamente las tasas de error de palabras (WER). Nuestros métodos logran un WER del 12.17%, superando a los sistemas ASR tradicionales y estableciendo un nuevo estándar para el ASR DA. Estos hallazgos demuestran el potencial del aprendizaje automático avanzado para abordar desafíos de larga data en el ASR DA y mejorar su precisión.

Otros recursos que podrían interesarte

Temas Virtualpro