Comparación de enfoques de muestreo basado en clústeres para datos desbalanceados de accidentes que involucran camiones grandes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Comparación de enfoques de muestreo basado en clústeres para datos desbalanceados de accidentes que involucran camiones grandes

Autores: Tahfim, Syed As-Sadeq; Chen, Yan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Comparación de enfoques de muestreo basado en clústeres para datos desbalanceados de accidentes que involucran camiones grandes

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Camiones

Accidentes

Desequilibrio de datos

Enfoques de muestreo

Modelos de aprendizaje automático

Submuestreo basado en clústeres

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los accidentes graves y mortales que involucran camiones grandes resultan en pérdidas sociales y económicas significativas para la sociedad humana. Desafortunadamente, la notablemente baja proporción de accidentes con lesiones graves y mortales que involucran camiones grandes crea un desequilibrio en los datos de accidentes. Los modelos entrenados con datos de accidentes desequilibrados son propensos a producir resultados erróneos. Por lo tanto, es necesario explorar nuevos enfoques de muestreo para datos de accidentes desequilibrados, y es crucial determinar la combinación adecuada de un modelo de aprendizaje automático, enfoque de muestreo y proporción. Este estudio introduce una nueva técnica de submuestreo basada en clústeres, utilizando el algoritmo de agrupamiento k-prototypes. Después del submuestreo inicial basado en clústeres, el conjunto de datos submuestreado consolidado se volvió a muestrear utilizando tres enfoques de muestreo diferentes (es decir, muestreo sintético adaptativo (ADASYN), NearMiss-2 y la técnica de sobremuestreo sintético de minorías + enlaces de Tomek (SMOTETomek)). Posteriormente, se entrenaron y evaluaron cuatro modelos de aprendizaje automático (regresión logística (LR), bosque aleatorio (RF), árboles de decisión potenciados por gradiente (GBDT) y la red neuronal de perceptrón multicapa (MLP)) utilizando la media geométrica (G-Mean) y el área bajo la curva de características operativas del receptor (AUC). Los hallazgos sugieren que el submuestreo basado en clústeres, junto con los enfoques de muestreo investigados, mejora significativamente el rendimiento de los modelos de aprendizaje automático desarrollados sobre datos de accidentes. Además, es probable que el modelo GBDT combinado con ADASYN o SMOTETomek produzca mejores predicciones que cualquier modelo combinado con NearMiss-2. En cuanto a los cambios en las proporciones de muestreo, aumentar la proporción de muestreo con ADASYN y SMOTETomek probablemente mejorará el rendimiento de los modelos hasta cierto nivel, mientras que con NearMiss-2, el rendimiento probablemente disminuirá significativamente más allá de un punto específico. Estos hallazgos proporcionan valiosas ideas para seleccionar estrategias óptimas para abordar el problema del desequilibrio de clases en los datos de accidentes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro