Mejorando el Reconocimiento de Voz Árabe Diacrítico: Modelos Basados en Transformadores con Aprendizaje por Transferencia y Aumento de Datos Híbrido

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando el Reconocimiento de Voz Árabe Diacrítico: Modelos Basados en Transformadores con Aprendizaje por Transferencia y Aumento de Datos Híbrido

Autores: Alaqel, Haifa; El Hindi, Khalil

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Mejorando el Reconocimiento de Voz Árabe Diacrítico: Modelos Basados en Transformadores con Aprendizaje por Transferencia y Aumento de Datos Híbrido

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

árabe

Marcas diacríticas

Pronunciación

Reconocimiento automático de voz

Aprendizaje automático

Aumento de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El árabe diacrítico (DA) se refiere al texto árabe con marcas diacríticas que guían la pronunciación y aclaran los significados, haciendo que su reconocimiento sea crucial para una interpretación lingüística precisa. Estas marcas diacríticas (vocales cortas) influyen significativamente en el significado y la pronunciación, y su reconocimiento preciso es vital para la efectividad de los sistemas de reconocimiento automático de voz (ASR), particularmente en aplicaciones que requieren alta precisión semántica, como los servicios de traducción habilitados por voz. A pesar de su importancia, aprovechar técnicas avanzadas de aprendizaje automático para mejorar el ASR para el árabe diacrítico ha permanecido poco explorado. Un desafío clave en el desarrollo del ASR DA es la disponibilidad limitada de datos de entrenamiento. Este estudio introduce un enfoque basado en transformadores que aprovecha el aprendizaje por transferencia y la augmentación de datos para abordar estos desafíos. Utilizando un modelo de representación de voz multilingüe (XLSR) preentrenado en 53 idiomas, lo ajustamos finamente en DA e integramos la clasificación temporal conexionista (CTC) con transformadores para mejorar el rendimiento. Las técnicas de augmentación de datos, que incluyen ajuste de volumen, cambio de tono, alteración de velocidad y estrategias híbridas, mitigan aún más las limitaciones de datos, reduciendo significativamente las tasas de error de palabras (WER). Nuestros métodos logran un WER del 12.17%, superando a los sistemas ASR tradicionales y estableciendo un nuevo estándar para el ASR DA. Estos hallazgos demuestran el potencial del aprendizaje automático avanzado para abordar desafíos de larga data en el ASR DA y mejorar su precisión.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro