Comparación de enfoques de muestreo basado en clústeres para datos desbalanceados de accidentes que involucran camiones grandes
Autores: Tahfim, Syed As-Sadeq; Chen, Yan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Comparación de enfoques de muestreo basado en clústeres para datos desbalanceados de accidentes que involucran camiones grandes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Camiones
Accidentes
Desequilibrio de datos
Enfoques de muestreo
Modelos de aprendizaje automático
Submuestreo basado en clústeres
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los accidentes graves y mortales que involucran camiones grandes resultan en pérdidas sociales y económicas significativas para la sociedad humana. Desafortunadamente, la notablemente baja proporción de accidentes con lesiones graves y mortales que involucran camiones grandes crea un desequilibrio en los datos de accidentes. Los modelos entrenados con datos de accidentes desequilibrados son propensos a producir resultados erróneos. Por lo tanto, es necesario explorar nuevos enfoques de muestreo para datos de accidentes desequilibrados, y es crucial determinar la combinación adecuada de un modelo de aprendizaje automático, enfoque de muestreo y proporción. Este estudio introduce una nueva técnica de submuestreo basada en clústeres, utilizando el algoritmo de agrupamiento k-prototypes. Después del submuestreo inicial basado en clústeres, el conjunto de datos submuestreado consolidado se volvió a muestrear utilizando tres enfoques de muestreo diferentes (es decir, muestreo sintético adaptativo (ADASYN), NearMiss-2 y la técnica de sobremuestreo sintético de minorías + enlaces de Tomek (SMOTETomek)). Posteriormente, se entrenaron y evaluaron cuatro modelos de aprendizaje automático (regresión logística (LR), bosque aleatorio (RF), árboles de decisión potenciados por gradiente (GBDT) y la red neuronal de perceptrón multicapa (MLP)) utilizando la media geométrica (G-Mean) y el área bajo la curva de características operativas del receptor (AUC). Los hallazgos sugieren que el submuestreo basado en clústeres, junto con los enfoques de muestreo investigados, mejora significativamente el rendimiento de los modelos de aprendizaje automático desarrollados sobre datos de accidentes. Además, es probable que el modelo GBDT combinado con ADASYN o SMOTETomek produzca mejores predicciones que cualquier modelo combinado con NearMiss-2. En cuanto a los cambios en las proporciones de muestreo, aumentar la proporción de muestreo con ADASYN y SMOTETomek probablemente mejorará el rendimiento de los modelos hasta cierto nivel, mientras que con NearMiss-2, el rendimiento probablemente disminuirá significativamente más allá de un punto específico. Estos hallazgos proporcionan valiosas ideas para seleccionar estrategias óptimas para abordar el problema del desequilibrio de clases en los datos de accidentes.
Descripción
Los accidentes graves y mortales que involucran camiones grandes resultan en pérdidas sociales y económicas significativas para la sociedad humana. Desafortunadamente, la notablemente baja proporción de accidentes con lesiones graves y mortales que involucran camiones grandes crea un desequilibrio en los datos de accidentes. Los modelos entrenados con datos de accidentes desequilibrados son propensos a producir resultados erróneos. Por lo tanto, es necesario explorar nuevos enfoques de muestreo para datos de accidentes desequilibrados, y es crucial determinar la combinación adecuada de un modelo de aprendizaje automático, enfoque de muestreo y proporción. Este estudio introduce una nueva técnica de submuestreo basada en clústeres, utilizando el algoritmo de agrupamiento k-prototypes. Después del submuestreo inicial basado en clústeres, el conjunto de datos submuestreado consolidado se volvió a muestrear utilizando tres enfoques de muestreo diferentes (es decir, muestreo sintético adaptativo (ADASYN), NearMiss-2 y la técnica de sobremuestreo sintético de minorías + enlaces de Tomek (SMOTETomek)). Posteriormente, se entrenaron y evaluaron cuatro modelos de aprendizaje automático (regresión logística (LR), bosque aleatorio (RF), árboles de decisión potenciados por gradiente (GBDT) y la red neuronal de perceptrón multicapa (MLP)) utilizando la media geométrica (G-Mean) y el área bajo la curva de características operativas del receptor (AUC). Los hallazgos sugieren que el submuestreo basado en clústeres, junto con los enfoques de muestreo investigados, mejora significativamente el rendimiento de los modelos de aprendizaje automático desarrollados sobre datos de accidentes. Además, es probable que el modelo GBDT combinado con ADASYN o SMOTETomek produzca mejores predicciones que cualquier modelo combinado con NearMiss-2. En cuanto a los cambios en las proporciones de muestreo, aumentar la proporción de muestreo con ADASYN y SMOTETomek probablemente mejorará el rendimiento de los modelos hasta cierto nivel, mientras que con NearMiss-2, el rendimiento probablemente disminuirá significativamente más allá de un punto específico. Estos hallazgos proporcionan valiosas ideas para seleccionar estrategias óptimas para abordar el problema del desequilibrio de clases en los datos de accidentes.