Aprendizaje de Pseudo-Margen Promedio Multi-Cabeza para la Clasificación de Tweets sobre Desastres
Autores: Sîrbu, Iustin; Popovici, Robert-Adrian; Rebedea, Traian; Truan-Matu, tefan
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje de Pseudo-Margen Promedio Multi-Cabeza para la Clasificación de Tweets sobre Desastres
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desastres naturales
Plataformas de redes sociales
Aprendizaje semi-supervisado
Clasificación de tweets sobre desastres
Co-entrenamiento
Clasificación automatizada
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Durante desastres naturales, las plataformas de redes sociales, como X (anteriormente Twitter), se convierten en una fuente valiosa de información en tiempo real, con testigos y personas afectadas publicando mensajes sobre los daños producidos y las víctimas. Aunque esta información puede ser utilizada para agilizar el proceso de intervención de las autoridades locales y lograr una mejor distribución de los recursos disponibles, anotar manualmente estos mensajes a menudo es inviable debido a limitaciones de tiempo y costo. Para abordar este desafío, exploramos el uso del aprendizaje semi-supervisado, una técnica que aprovecha tanto datos etiquetados como no etiquetados, para mejorar los modelos neuronales para la clasificación de tweets sobre desastres. Específicamente, investigamos modelos de aprendizaje semi-supervisado de vanguardia y nos enfocamos en el co-entrenamiento, un enfoque menos explorado en los últimos años. Además, proponemos una nueva arquitectura híbrida de co-entrenamiento, Multihead Average Pseudo-Margin, que obtiene resultados de vanguardia en varias tareas de clasificación. Nuestro enfoque extiende las ventajas del mecanismo de votación del Multihead Co-Training al utilizar la puntuación de Average Pseudo-Margin (APM) para mejorar la calidad de las pseudo-etiquetas y los umbrales de confianza auto-adaptativos para mejorar la clasificación desbalanceada. Nuestro método logra hasta un 7.98% de mejora en precisión en escenarios de pocos datos y un 2.84% de mejora al utilizar todo el conjunto de datos etiquetados, alcanzando un 89.55% de precisión en la tarea Humanitaria y un 91.23% en la tarea Informativa. Estos resultados demuestran el potencial de nuestro enfoque para abordar la necesidad crítica de clasificación automatizada de tweets sobre desastres. Hicimos nuestro código disponible públicamente para futuras investigaciones.
Descripción
Durante desastres naturales, las plataformas de redes sociales, como X (anteriormente Twitter), se convierten en una fuente valiosa de información en tiempo real, con testigos y personas afectadas publicando mensajes sobre los daños producidos y las víctimas. Aunque esta información puede ser utilizada para agilizar el proceso de intervención de las autoridades locales y lograr una mejor distribución de los recursos disponibles, anotar manualmente estos mensajes a menudo es inviable debido a limitaciones de tiempo y costo. Para abordar este desafío, exploramos el uso del aprendizaje semi-supervisado, una técnica que aprovecha tanto datos etiquetados como no etiquetados, para mejorar los modelos neuronales para la clasificación de tweets sobre desastres. Específicamente, investigamos modelos de aprendizaje semi-supervisado de vanguardia y nos enfocamos en el co-entrenamiento, un enfoque menos explorado en los últimos años. Además, proponemos una nueva arquitectura híbrida de co-entrenamiento, Multihead Average Pseudo-Margin, que obtiene resultados de vanguardia en varias tareas de clasificación. Nuestro enfoque extiende las ventajas del mecanismo de votación del Multihead Co-Training al utilizar la puntuación de Average Pseudo-Margin (APM) para mejorar la calidad de las pseudo-etiquetas y los umbrales de confianza auto-adaptativos para mejorar la clasificación desbalanceada. Nuestro método logra hasta un 7.98% de mejora en precisión en escenarios de pocos datos y un 2.84% de mejora al utilizar todo el conjunto de datos etiquetados, alcanzando un 89.55% de precisión en la tarea Humanitaria y un 91.23% en la tarea Informativa. Estos resultados demuestran el potencial de nuestro enfoque para abordar la necesidad crítica de clasificación automatizada de tweets sobre desastres. Hicimos nuestro código disponible públicamente para futuras investigaciones.