logo móvil
Contáctanos

Avanzando en la identificación de género de autor en árabe estándar moderno con técnicas innovadoras de aprendizaje profundo y características textuales

Autores: Himdi, Hanen; Shaalan, Khaled

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Avanzando en la identificación de género de autor en árabe estándar moderno con técnicas innovadoras de aprendizaje profundo y características textuales


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Identificación de género del autor
Seguridad
Marketing
Ciberseguridad
árabe
Aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La identificación de género del autor (AGI) es un tema ampliamente estudiado debido a su importancia en varios dominios, como la seguridad y el marketing. Reconocer el género de un autor puede ayudar a los comercializadores a segmentar a los consumidores de manera más efectiva y a crear contenido personalizado que se alinee con las preferencias de un género. Además, en ciberseguridad, identificar el género de un autor podría ayudar a detectar intentos de phishing donde los hackers podrían imitar a individuos de un género específico. Aunque los estudios en árabe se han centrado principalmente en dialectos escritos, como los tuits, hay una escasez de estudios que aborden el árabe estándar moderno (MSA) en géneros periodísticos. Para abordar el problema de AGI, este trabajo combina las propiedades beneficiosas del procesamiento del lenguaje natural con métodos avanzados de aprendizaje profundo. En primer lugar, proponemos un gran conjunto de datos de artículos en MSA de 8k compuesto por varias columnas extraídas de plataformas de noticias, etiquetadas con el género de cada autor. Además, extraemos y analizamos características textuales que pueden ser útiles para identificar pistas relacionadas con el género a través de sus escritos, centrándonos en la semántica y la sintaxis lingüística. Además, exploramos varios modelos innovadores de aprendizaje profundo, a saber, Redes Neuronales Convolucionales (CNN), LSTM, LSTM Bidireccional (BiLSTM) y Representaciones de Codificadores Bidireccionales de Transformadores (BERT). Más allá de eso, se propone un nuevo modelo BERT mejorado al incorporar características textuales específicas de género. A través de varios experimentos, los resultados subrayan el potencial tanto de BERT como de las características textuales, resultando en una precisión del 91% para el modelo BERT mejorado y un rango de precisión del 80% al 90% para los modelos de aprendizaje profundo. También empleamos estas características para AGI en texto informal y dialectal, con el modelo BERT mejorado alcanzando una precisión del 68.7%. Esto demuestra que estas características textuales específicas de género son propicias para AGI en textos en MSA y dialectales.

Otros recursos que podrían interesarte

Temas Virtualpro