logo móvil
Contáctanos

El Efecto del Tamaño de los Datos de Entrenamiento en la Clasificación de Desastres a partir de Twitter

Autores: Effrosynidis, Dimitrios; Sylaios, Georgios; Arampatzis, Avi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

El Efecto del Tamaño de los Datos de Entrenamiento en la Clasificación de Desastres a partir de Twitter


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desastre
Clasificación de tweets
Algoritmos de aprendizaje automático
Tamaño del conjunto de datos
Ajuste de hiperparámetros
Regresión logística

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En el ámbito de la clasificación de tweets relacionados con desastres, este estudio presenta un análisis exhaustivo de varios algoritmos de aprendizaje automático, arrojando luz sobre factores cruciales que influyen en el rendimiento de los algoritmos. La excepcional eficacia de los modelos más simples se atribuye a la calidad y tamaño del conjunto de datos, lo que les permite discernir patrones significativos. Aunque potentes, los modelos complejos son lentos y propensos al sobreajuste, particularmente con conjuntos de datos más pequeños o ruidosos. La optimización de hiperparámetros, notablemente a través de la optimización bayesiana, surge como una herramienta fundamental para mejorar el rendimiento de los modelos más simples. Se propone una guía práctica para la selección de algoritmos basada en el tamaño del conjunto de datos, que consiste en Bernoulli Naive Bayes para conjuntos de datos de menos de 5000 tweets y Regresión Logística para conjuntos de datos más grandes que superan los 5000 tweets. Notablemente, la Regresión Logística brilla con 20,000 tweets, ofreciendo una combinación impresionante de rendimiento, velocidad e interpretabilidad. Se logra una mejora adicional del 0.5% al aplicar métodos de ensamblaje y apilamiento.

Otros recursos que podrían interesarte

Temas Virtualpro