El Efecto del Tamaño de los Datos de Entrenamiento en la Clasificación de Desastres a partir de Twitter

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

El Efecto del Tamaño de los Datos de Entrenamiento en la Clasificación de Desastres a partir de Twitter

Autores: Effrosynidis, Dimitrios; Sylaios, Georgios; Arampatzis, Avi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

El Efecto del Tamaño de los Datos de Entrenamiento en la Clasificación de Desastres a partir de Twitter

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desastre

Clasificación de tweets

Algoritmos de aprendizaje automático

Tamaño del conjunto de datos

Ajuste de hiperparámetros

Regresión logística

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En el ámbito de la clasificación de tweets relacionados con desastres, este estudio presenta un análisis exhaustivo de varios algoritmos de aprendizaje automático, arrojando luz sobre factores cruciales que influyen en el rendimiento de los algoritmos. La excepcional eficacia de los modelos más simples se atribuye a la calidad y tamaño del conjunto de datos, lo que les permite discernir patrones significativos. Aunque potentes, los modelos complejos son lentos y propensos al sobreajuste, particularmente con conjuntos de datos más pequeños o ruidosos. La optimización de hiperparámetros, notablemente a través de la optimización bayesiana, surge como una herramienta fundamental para mejorar el rendimiento de los modelos más simples. Se propone una guía práctica para la selección de algoritmos basada en el tamaño del conjunto de datos, que consiste en Bernoulli Naive Bayes para conjuntos de datos de menos de 5000 tweets y Regresión Logística para conjuntos de datos más grandes que superan los 5000 tweets. Notablemente, la Regresión Logística brilla con 20,000 tweets, ofreciendo una combinación impresionante de rendimiento, velocidad e interpretabilidad. Se logra una mejora adicional del 0.5% al aplicar métodos de ensamblaje y apilamiento.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro