técnicas para una imputación robusta en tablas bidireccionales incompletas
Autores: Arciniegas-Alarcón, Sergio; García-Peña, Marisol; Rengifo, Camilo; Krzanowski, Wojtek J.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
técnicas para una imputación robusta en tablas bidireccionales incompletas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Estrategias de imputación
Valores atípicos
Descomposición de valores singulares robusta
Mecanismos de datos faltantes
Errores de predicción
Coeficiente de calidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Describimos estrategias de imputación resistentes a valores atípicos, a través de modificaciones del método de imputación simple propuesto por Krzanowski y evaluamos su rendimiento. Las estrategias utilizan una descomposición de valores singulares robusta, no dependen de suposiciones distribucionales o estructurales y no tienen restricciones en cuanto al patrón o mecanismos de datos faltantes. Son probadas a través de la simulación de contaminación y desequilibrio, tanto en matrices generadas artificialmente como en una matriz de datos reales de un experimento con interacción genotipo-por-ambiente. Su rendimiento es evaluado mediante errores de predicción, el coseno al cuadrado entre matrices y un coeficiente de calidad de ajuste entre las imputaciones y los valores reales. Para matrices pequeñas, los mejores resultados se obtienen aplicando la descomposición robusta directamente, mientras que para matrices más grandes la mayor calidad se obtiene eliminando los valores singulares de la ecuación de imputación.
Descripción
Describimos estrategias de imputación resistentes a valores atípicos, a través de modificaciones del método de imputación simple propuesto por Krzanowski y evaluamos su rendimiento. Las estrategias utilizan una descomposición de valores singulares robusta, no dependen de suposiciones distribucionales o estructurales y no tienen restricciones en cuanto al patrón o mecanismos de datos faltantes. Son probadas a través de la simulación de contaminación y desequilibrio, tanto en matrices generadas artificialmente como en una matriz de datos reales de un experimento con interacción genotipo-por-ambiente. Su rendimiento es evaluado mediante errores de predicción, el coseno al cuadrado entre matrices y un coeficiente de calidad de ajuste entre las imputaciones y los valores reales. Para matrices pequeñas, los mejores resultados se obtienen aplicando la descomposición robusta directamente, mientras que para matrices más grandes la mayor calidad se obtiene eliminando los valores singulares de la ecuación de imputación.