logo móvil
Contáctanos

Mejorando la Detección de Dialectos Árabes en Redes Sociales: Un Modelo Híbrido con un Mecanismo de Atención

Autores: Yafooz, Wael M. S.

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Mejorando la Detección de Dialectos Árabes en Redes Sociales: Un Modelo Híbrido con un Mecanismo de Atención


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Redes sociales
Internet
Dialectos árabes
Reconocimiento de lenguaje
Modelo de aprendizaje profundo
Twitter

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Recientemente, el uso generalizado de las redes sociales y el fácil acceso a Internet han provocado una transformación significativa en el tipo de datos textuales disponibles en la Web. Este cambio es particularmente evidente en el uso del idioma árabe, ya que el creciente número de usuarios de diversos ámbitos ha llevado a un considerable aumento de texto árabe en varios dialectos, cada uno caracterizado por diferencias en morfología, sintaxis, vocabulario y pronunciación. En consecuencia, los investigadores en reconocimiento de lenguajes y procesamiento de lenguaje natural han mostrado un interés creciente en identificar los dialectos árabes. Se han propuesto numerosos métodos para reconocer estos datos informales, debido a sus implicaciones cruciales para varias aplicaciones, como el análisis de sentimientos, la modelización de temas, la resumición de textos y la traducción automática. Sin embargo, la identificación de dialectos árabes es un desafío significativo debido a la vasta diversidad del idioma árabe en sus dialectos. Este estudio presenta un novedoso modelo híbrido de aprendizaje automático y profundo, que incorpora un mecanismo de atención para detectar y clasificar dialectos árabes. Se realizaron varios experimentos utilizando un nuevo conjunto de datos que recopiló información de comentarios generados por usuarios en Twitter de dialectos árabes, a saber, egipcio, del Golfo, jordano y yemení, para evaluar la efectividad del modelo propuesto. El conjunto de datos comprende 34,905 filas extraídas de Twitter, representando una distribución de datos no equilibrada. La anotación de datos fue realizada por hablantes nativos competentes en cada dialecto. Los resultados demuestran que el modelo propuesto supera el rendimiento de los modelos de memoria a corto y largo plazo, memoria a corto y largo plazo bidireccional y regresión logística en la clasificación de dialectos utilizando diferentes representaciones de palabras como sigue: frecuencia de término-frecuencia inversa de documento, Word2Vec y vector global para la representación de palabras.

Otros recursos que podrían interesarte

Temas Virtualpro