Un método de detección de errores no supervisado para detectar etiquetas erróneas en análisis de salud
Autores: Zhou, Pei-Yuan; Lum, Faith; Wang, Tony Jiecao; Bhatti, Anubhav; Parmar, Surajsinh; Dan, Chen; Wong, Andrew K. C.
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método de detección de errores no supervisado para detectar etiquetas erróneas en análisis de salud
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Conjuntos de datos médicos
Errores
Precisión de clasificación
Muestras anormales
Detección de errores no supervisada
Descubrimiento de patrones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Los conjuntos de datos médicos pueden estar desequilibrados y contener errores debido a resultados de pruebas subjetivas y variabilidad clínica. La mala calidad de los datos originales afecta la precisión y confiabilidad de la clasificación. Por lo tanto, detectar muestras anormales en el conjunto de datos puede ayudar a los médicos a tomar mejores decisiones. En este estudio, proponemos un método de detección de errores no supervisado utilizando patrones descubiertos por el modelo de Descubrimiento y Desentrañamiento de Patrones (PDD), desarrollado en nuestro trabajo anterior. Aplicado a los datos grandes, la Base de Datos de Investigación Colaborativa de la eICU para la evaluación del riesgo de sepsis, el algoritmo propuesto puede descubrir de manera efectiva patrones de asociación estadísticamente significativos, generar una base de conocimientos interpretable para interpretabilidad, agrupar muestras de manera no supervisada y detectar muestras anormales en el conjunto de datos. Como se muestra en el resultado experimental, nuestro método superó a K-Means en el conjunto de datos completo y en el conjunto de datos reducido para el agrupamiento no supervisado. Múltiples clasificadores supervisados mejoran la precisión en un promedio de después de eliminar las muestras anormales mediante el enfoque de detección de errores propuesto. Por lo tanto, el algoritmo propuesto proporciona una solución sólida y práctica para el agrupamiento no supervisado y la detección de errores en datos de salud.
Descripción
Los conjuntos de datos médicos pueden estar desequilibrados y contener errores debido a resultados de pruebas subjetivas y variabilidad clínica. La mala calidad de los datos originales afecta la precisión y confiabilidad de la clasificación. Por lo tanto, detectar muestras anormales en el conjunto de datos puede ayudar a los médicos a tomar mejores decisiones. En este estudio, proponemos un método de detección de errores no supervisado utilizando patrones descubiertos por el modelo de Descubrimiento y Desentrañamiento de Patrones (PDD), desarrollado en nuestro trabajo anterior. Aplicado a los datos grandes, la Base de Datos de Investigación Colaborativa de la eICU para la evaluación del riesgo de sepsis, el algoritmo propuesto puede descubrir de manera efectiva patrones de asociación estadísticamente significativos, generar una base de conocimientos interpretable para interpretabilidad, agrupar muestras de manera no supervisada y detectar muestras anormales en el conjunto de datos. Como se muestra en el resultado experimental, nuestro método superó a K-Means en el conjunto de datos completo y en el conjunto de datos reducido para el agrupamiento no supervisado. Múltiples clasificadores supervisados mejoran la precisión en un promedio de después de eliminar las muestras anormales mediante el enfoque de detección de errores propuesto. Por lo tanto, el algoritmo propuesto proporciona una solución sólida y práctica para el agrupamiento no supervisado y la detección de errores en datos de salud.