Mejorando el rendimiento del análisis de sentimientos en conjuntos de datos desbalanceados del dialecto marroquí utilizando técnicas de re-muestreo y extracción de características
Autores: Nassr, Zineb; Benabbou, Faouzia; Sael, Nawal; Hamim, Touria
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Mejorando el rendimiento del análisis de sentimientos en conjuntos de datos desbalanceados del dialecto marroquí utilizando técnicas de re-muestreo y extracción de características
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Análisis de sentimientos
Minería de texto
Procesamiento de lenguaje natural
Dialecto marroquí
Aprendizaje automático
Técnicas de re-muestreo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El análisis de sentimientos es un componente crucial de la minería de texto y el procesamiento del lenguaje natural (NLP), que implica la evaluación y clasificación de datos textuales en función de su tono emocional, típicamente categorizado como positivo, negativo o neutral. Si bien se ha centrado una investigación significativa en lenguajes estructurados como el inglés, los lenguajes no estructurados, como el dialecto marroquí (MD), enfrentan limitaciones sustanciales de recursos y desafíos lingüísticos, lo que dificulta un análisis de sentimientos efectivo. Este estudio aborda esta brecha al explorar la integración de técnicas de balanceo de datos con métodos de aprendizaje automático (ML), investigando específicamente el impacto de las técnicas de re-muestreo y los métodos de extracción de características, incluyendo la Frecuencia de Término-Frecuencia Inversa de Documento (TF-IDF), Bolsa de Palabras (BOW) y N-grams. A través de experimentación rigurosa, evaluamos la efectividad de estos enfoques para mejorar la precisión del análisis de sentimientos para el dialecto marroquí. Nuestros hallazgos demuestran que el re-muestreo estratégico, combinado con el método TF-IDF, mejora significativamente la precisión y robustez de la clasificación. También exploramos la interacción entre las estrategias de re-muestreo y los métodos de extracción de características, revelando diferentes niveles de efectividad en diversas combinaciones. Notablemente, el clasificador de Máquina de Vectores de Soporte (SVM), cuando se combina con la representación TF-IDF, logra un rendimiento superior, con una precisión del 90.24% y una exactitud del 90.34%. Estos resultados destacan la importancia de técnicas de re-muestreo personalizadas, métodos de extracción de características apropiados y optimización del aprendizaje automático en el avance del análisis de sentimientos para lenguajes con pocos recursos y con un fuerte uso de dialectos como el dialecto marroquí, proporcionando un marco práctico para futuras investigaciones y desarrollos en NLP para lenguajes no estructurados.
Descripción
El análisis de sentimientos es un componente crucial de la minería de texto y el procesamiento del lenguaje natural (NLP), que implica la evaluación y clasificación de datos textuales en función de su tono emocional, típicamente categorizado como positivo, negativo o neutral. Si bien se ha centrado una investigación significativa en lenguajes estructurados como el inglés, los lenguajes no estructurados, como el dialecto marroquí (MD), enfrentan limitaciones sustanciales de recursos y desafíos lingüísticos, lo que dificulta un análisis de sentimientos efectivo. Este estudio aborda esta brecha al explorar la integración de técnicas de balanceo de datos con métodos de aprendizaje automático (ML), investigando específicamente el impacto de las técnicas de re-muestreo y los métodos de extracción de características, incluyendo la Frecuencia de Término-Frecuencia Inversa de Documento (TF-IDF), Bolsa de Palabras (BOW) y N-grams. A través de experimentación rigurosa, evaluamos la efectividad de estos enfoques para mejorar la precisión del análisis de sentimientos para el dialecto marroquí. Nuestros hallazgos demuestran que el re-muestreo estratégico, combinado con el método TF-IDF, mejora significativamente la precisión y robustez de la clasificación. También exploramos la interacción entre las estrategias de re-muestreo y los métodos de extracción de características, revelando diferentes niveles de efectividad en diversas combinaciones. Notablemente, el clasificador de Máquina de Vectores de Soporte (SVM), cuando se combina con la representación TF-IDF, logra un rendimiento superior, con una precisión del 90.24% y una exactitud del 90.34%. Estos resultados destacan la importancia de técnicas de re-muestreo personalizadas, métodos de extracción de características apropiados y optimización del aprendizaje automático en el avance del análisis de sentimientos para lenguajes con pocos recursos y con un fuerte uso de dialectos como el dialecto marroquí, proporcionando un marco práctico para futuras investigaciones y desarrollos en NLP para lenguajes no estructurados.