Aprendizaje de conjuntos de datos desequilibrados: el problema del inventario de bicicletas compartidas utilizando información escasa
Autores: Ceccarelli, Giovanni; Cantelmo, Guido; Nigro, Marialisa; Antoniou, Constantinos
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Aprendizaje de conjuntos de datos desequilibrados: el problema del inventario de bicicletas compartidas utilizando información escasa
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Sistemas de uso compartido de bicicletas
Nivel de inventario
Clasificadores de aprendizaje automático
Datos históricos
Conjuntos de datos desequilibrados
Valores de demanda
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
En los sistemas de bicicletas compartidas, el nivel de inventario se define como el número diario de bicicletas necesario para satisfacer óptimamente la demanda. Estimar estos valores es un gran desafío para los operadores de bicicletas compartidas, ya que niveles de inventario sesgados llevan a una reducción de la calidad del servicio en el mejor de los casos y a la pérdida de clientes y fallos del sistema en el peor de los casos. Este documento se centra en el uso de clasificadores de aprendizaje automático (ML), principalmente bosques aleatorios y aumento de árboles de gradiente, para estimar el nivel de inventario a partir de características disponibles que incluyen datos históricos. Sin embargo, mientras que enfoques similares adoptados en el contexto de bicicletas compartidas asumen que los datos están bien equilibrados, esta suposición no se cumple en el caso del problema de inventario. De hecho, dado que la demanda de bicicletas compartidas es escasa, los conjuntos de datos se sesgan hacia valores de baja demanda y surgen errores sistemáticos. Por lo tanto, proponemos incluir un nuevo procedimiento de remuestreo iterativo en el problema de clasificación para tratar con conjuntos de datos desequilibrados. El modelo propuesto, probado en datos del mundo real del operador de Citi Bike en Nueva York, permite (i) proporcionar valores límite superior e inferior para el problema de inventario de bicicletas compartidas, prediciendo con precisión tanto valores de demanda predominantes como raros; (ii) capturar las principales características que caracterizan las diferentes clases de demanda; y (iii) trabajar en un marco de día a día. Finalmente, los sistemas exitosos de bicicletas compartidas crecen rápidamente, abriendo nuevas estaciones cada año. Además de los cambios en la demanda de movilidad, un problema adicional es que no podemos utilizar información histórica para predecir los niveles de inventario para las nuevas estaciones. Por lo tanto, probamos la capacidad de nuestro modelo para predecir los niveles de inventario cuando no se dispone de datos históricos, con un enfoque específico en estaciones que no estaban disponibles para el entrenamiento.
Descripción
En los sistemas de bicicletas compartidas, el nivel de inventario se define como el número diario de bicicletas necesario para satisfacer óptimamente la demanda. Estimar estos valores es un gran desafío para los operadores de bicicletas compartidas, ya que niveles de inventario sesgados llevan a una reducción de la calidad del servicio en el mejor de los casos y a la pérdida de clientes y fallos del sistema en el peor de los casos. Este documento se centra en el uso de clasificadores de aprendizaje automático (ML), principalmente bosques aleatorios y aumento de árboles de gradiente, para estimar el nivel de inventario a partir de características disponibles que incluyen datos históricos. Sin embargo, mientras que enfoques similares adoptados en el contexto de bicicletas compartidas asumen que los datos están bien equilibrados, esta suposición no se cumple en el caso del problema de inventario. De hecho, dado que la demanda de bicicletas compartidas es escasa, los conjuntos de datos se sesgan hacia valores de baja demanda y surgen errores sistemáticos. Por lo tanto, proponemos incluir un nuevo procedimiento de remuestreo iterativo en el problema de clasificación para tratar con conjuntos de datos desequilibrados. El modelo propuesto, probado en datos del mundo real del operador de Citi Bike en Nueva York, permite (i) proporcionar valores límite superior e inferior para el problema de inventario de bicicletas compartidas, prediciendo con precisión tanto valores de demanda predominantes como raros; (ii) capturar las principales características que caracterizan las diferentes clases de demanda; y (iii) trabajar en un marco de día a día. Finalmente, los sistemas exitosos de bicicletas compartidas crecen rápidamente, abriendo nuevas estaciones cada año. Además de los cambios en la demanda de movilidad, un problema adicional es que no podemos utilizar información histórica para predecir los niveles de inventario para las nuevas estaciones. Por lo tanto, probamos la capacidad de nuestro modelo para predecir los niveles de inventario cuando no se dispone de datos históricos, con un enfoque específico en estaciones que no estaban disponibles para el entrenamiento.