logo móvil
Contáctanos

Mejorando el rendimiento del análisis de sentimientos en conjuntos de datos desbalanceados del dialecto marroquí utilizando técnicas de re-muestreo y extracción de características

Autores: Nassr, Zineb; Benabbou, Faouzia; Sael, Nawal; Hamim, Touria

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Mejorando el rendimiento del análisis de sentimientos en conjuntos de datos desbalanceados del dialecto marroquí utilizando técnicas de re-muestreo y extracción de características


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Análisis de sentimientos
Minería de texto
Procesamiento de lenguaje natural
Dialecto marroquí
Aprendizaje automático
Técnicas de re-muestreo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El análisis de sentimientos es un componente crucial de la minería de texto y el procesamiento del lenguaje natural (NLP), que implica la evaluación y clasificación de datos textuales en función de su tono emocional, típicamente categorizado como positivo, negativo o neutral. Si bien se ha centrado una investigación significativa en lenguajes estructurados como el inglés, los lenguajes no estructurados, como el dialecto marroquí (MD), enfrentan limitaciones sustanciales de recursos y desafíos lingüísticos, lo que dificulta un análisis de sentimientos efectivo. Este estudio aborda esta brecha al explorar la integración de técnicas de balanceo de datos con métodos de aprendizaje automático (ML), investigando específicamente el impacto de las técnicas de re-muestreo y los métodos de extracción de características, incluyendo la Frecuencia de Término-Frecuencia Inversa de Documento (TF-IDF), Bolsa de Palabras (BOW) y N-grams. A través de experimentación rigurosa, evaluamos la efectividad de estos enfoques para mejorar la precisión del análisis de sentimientos para el dialecto marroquí. Nuestros hallazgos demuestran que el re-muestreo estratégico, combinado con el método TF-IDF, mejora significativamente la precisión y robustez de la clasificación. También exploramos la interacción entre las estrategias de re-muestreo y los métodos de extracción de características, revelando diferentes niveles de efectividad en diversas combinaciones. Notablemente, el clasificador de Máquina de Vectores de Soporte (SVM), cuando se combina con la representación TF-IDF, logra un rendimiento superior, con una precisión del 90.24% y una exactitud del 90.34%. Estos resultados destacan la importancia de técnicas de re-muestreo personalizadas, métodos de extracción de características apropiados y optimización del aprendizaje automático en el avance del análisis de sentimientos para lenguajes con pocos recursos y con un fuerte uso de dialectos como el dialecto marroquí, proporcionando un marco práctico para futuras investigaciones y desarrollos en NLP para lenguajes no estructurados.

Otros recursos que podrían interesarte

Temas Virtualpro