Imputación para datos de resultado acotado repetidos: enfoques estadísticos y de aprendizaje automático
Autores: Aguirre-Larracoechea, Urko; Borges, Cruz E.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Imputación para datos de resultado acotado repetidos: enfoques estadísticos y de aprendizaje automático
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos de la vida real
Variables con colas pesadas
Regresión beta inflada en cero-uno
Datos faltantes
Método de imputación
Métodos de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Los datos de la vida real son variables acotadas y de cola pesada. La regresión beta inflada en cero-uno (ZOIB) se utiliza para modelarlos. No existen métodos apropiados para abordar el problema de datos faltantes en resultados acotados repetidos. Desarrollamos un método de imputación utilizando ZOIB (i-ZOIB) y comparamos su rendimiento con el de los métodos ingenuos y de aprendizaje automático, utilizando diferentes formas de distribución y configuraciones diseñadas en el estudio de simulación. El rendimiento se midió empleando los métodos de error absoluto (MAE), error cuadrático medio (RMSE) y error absoluto relativo acotado promedio no escalado (UMBRAE). Los resultados variaron dependiendo de la tasa y mecanismo de datos faltantes. El i-ZOIB y los métodos de aprendizaje automático ANN, SVR y RF mostraron el mejor rendimiento.
Descripción
Los datos de la vida real son variables acotadas y de cola pesada. La regresión beta inflada en cero-uno (ZOIB) se utiliza para modelarlos. No existen métodos apropiados para abordar el problema de datos faltantes en resultados acotados repetidos. Desarrollamos un método de imputación utilizando ZOIB (i-ZOIB) y comparamos su rendimiento con el de los métodos ingenuos y de aprendizaje automático, utilizando diferentes formas de distribución y configuraciones diseñadas en el estudio de simulación. El rendimiento se midió empleando los métodos de error absoluto (MAE), error cuadrático medio (RMSE) y error absoluto relativo acotado promedio no escalado (UMBRAE). Los resultados variaron dependiendo de la tasa y mecanismo de datos faltantes. El i-ZOIB y los métodos de aprendizaje automático ANN, SVR y RF mostraron el mejor rendimiento.