Un estudio comparativo sobre técnicas de imputación: introducción de un modelo transformador para el manejo robusto y eficiente de datos de amplitud de EEG faltantes
Autores: Khan, Murad Ali
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un estudio comparativo sobre técnicas de imputación: introducción de un modelo transformador para el manejo robusto y eficiente de datos de amplitud de EEG faltantes
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Datos faltantes
Métodos de imputación
Arquitecturas basadas en transformadores
Datos de amplitud de señales de EEG
Métricas de error
Puntaje R2
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
En conjuntos de datos clínicos, la falta de datos suele ocurrir debido a varias razones, incluida la falta de respuesta, corrupción de datos y errores en la recolección o procesamiento de datos. Tales valores faltantes pueden llevar a análisis estadísticos sesgados, reducción de la potencia estadística y hallazgos potencialmente engañosos, lo que hace que la imputación efectiva sea crítica. Los métodos de imputación tradicionales, como la Imputación de Cero, la Imputación de la Media y la Imputación de k-Vecinos más Cercanos (KNN), intentan abordar estas lagunas. Sin embargo, estos métodos a menudo no logran capturar con precisión la complejidad de los datos subyacentes, lo que lleva a suposiciones simplificadas y errores en la predicción. Este estudio presenta un modelo de Imputación novedoso que emplea arquitecturas basadas en transformadores para abordar estos desafíos. Especialmente, el modelo distingue entre datos completos de amplitud de señal EEG y datos incompletos en dos conjuntos de datos: PhysioNet y CHB-MIT. Al entrenar exclusivamente con datos completos de amplitud, el TabTransformer aprende y predice con precisión los valores faltantes, capturando patrones y relaciones intrincados inherentes en los datos de amplitud de EEG. La evaluación utilizando varios métricos de error y puntaje R2 demuestra mejoras significativas sobre métodos tradicionales como la imputación de Cero, Media y KNN. El Modelo Propuesto logra impresionantes puntajes R2 de 0.993 para PhysioNet y 0.97 para CHB-MIT, destacando su eficacia en el manejo de patrones de datos clínicos complejos y mejorando la integridad del conjunto de datos. Esto subraya el potencial transformador de los modelos de transformadores para avanzar en la utilidad y confiabilidad de los conjuntos de datos clínicos.
Descripción
En conjuntos de datos clínicos, la falta de datos suele ocurrir debido a varias razones, incluida la falta de respuesta, corrupción de datos y errores en la recolección o procesamiento de datos. Tales valores faltantes pueden llevar a análisis estadísticos sesgados, reducción de la potencia estadística y hallazgos potencialmente engañosos, lo que hace que la imputación efectiva sea crítica. Los métodos de imputación tradicionales, como la Imputación de Cero, la Imputación de la Media y la Imputación de k-Vecinos más Cercanos (KNN), intentan abordar estas lagunas. Sin embargo, estos métodos a menudo no logran capturar con precisión la complejidad de los datos subyacentes, lo que lleva a suposiciones simplificadas y errores en la predicción. Este estudio presenta un modelo de Imputación novedoso que emplea arquitecturas basadas en transformadores para abordar estos desafíos. Especialmente, el modelo distingue entre datos completos de amplitud de señal EEG y datos incompletos en dos conjuntos de datos: PhysioNet y CHB-MIT. Al entrenar exclusivamente con datos completos de amplitud, el TabTransformer aprende y predice con precisión los valores faltantes, capturando patrones y relaciones intrincados inherentes en los datos de amplitud de EEG. La evaluación utilizando varios métricos de error y puntaje R2 demuestra mejoras significativas sobre métodos tradicionales como la imputación de Cero, Media y KNN. El Modelo Propuesto logra impresionantes puntajes R2 de 0.993 para PhysioNet y 0.97 para CHB-MIT, destacando su eficacia en el manejo de patrones de datos clínicos complejos y mejorando la integridad del conjunto de datos. Esto subraya el potencial transformador de los modelos de transformadores para avanzar en la utilidad y confiabilidad de los conjuntos de datos clínicos.