El Efecto del Tamaño de los Datos de Entrenamiento en la Clasificación de Desastres a partir de Twitter
Autores: Effrosynidis, Dimitrios; Sylaios, Georgios; Arampatzis, Avi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
El Efecto del Tamaño de los Datos de Entrenamiento en la Clasificación de Desastres a partir de Twitter
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desastre
Clasificación de tweets
Algoritmos de aprendizaje automático
Tamaño del conjunto de datos
Ajuste de hiperparámetros
Regresión logística
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En el ámbito de la clasificación de tweets relacionados con desastres, este estudio presenta un análisis exhaustivo de varios algoritmos de aprendizaje automático, arrojando luz sobre factores cruciales que influyen en el rendimiento de los algoritmos. La excepcional eficacia de los modelos más simples se atribuye a la calidad y tamaño del conjunto de datos, lo que les permite discernir patrones significativos. Aunque potentes, los modelos complejos son lentos y propensos al sobreajuste, particularmente con conjuntos de datos más pequeños o ruidosos. La optimización de hiperparámetros, notablemente a través de la optimización bayesiana, surge como una herramienta fundamental para mejorar el rendimiento de los modelos más simples. Se propone una guía práctica para la selección de algoritmos basada en el tamaño del conjunto de datos, que consiste en Bernoulli Naive Bayes para conjuntos de datos de menos de 5000 tweets y Regresión Logística para conjuntos de datos más grandes que superan los 5000 tweets. Notablemente, la Regresión Logística brilla con 20,000 tweets, ofreciendo una combinación impresionante de rendimiento, velocidad e interpretabilidad. Se logra una mejora adicional del 0.5% al aplicar métodos de ensamblaje y apilamiento.
Descripción
En el ámbito de la clasificación de tweets relacionados con desastres, este estudio presenta un análisis exhaustivo de varios algoritmos de aprendizaje automático, arrojando luz sobre factores cruciales que influyen en el rendimiento de los algoritmos. La excepcional eficacia de los modelos más simples se atribuye a la calidad y tamaño del conjunto de datos, lo que les permite discernir patrones significativos. Aunque potentes, los modelos complejos son lentos y propensos al sobreajuste, particularmente con conjuntos de datos más pequeños o ruidosos. La optimización de hiperparámetros, notablemente a través de la optimización bayesiana, surge como una herramienta fundamental para mejorar el rendimiento de los modelos más simples. Se propone una guía práctica para la selección de algoritmos basada en el tamaño del conjunto de datos, que consiste en Bernoulli Naive Bayes para conjuntos de datos de menos de 5000 tweets y Regresión Logística para conjuntos de datos más grandes que superan los 5000 tweets. Notablemente, la Regresión Logística brilla con 20,000 tweets, ofreciendo una combinación impresionante de rendimiento, velocidad e interpretabilidad. Se logra una mejora adicional del 0.5% al aplicar métodos de ensamblaje y apilamiento.