DQMAF-Marco de Modelado y Evaluación de la Calidad de los Datos
Autores: Al-Toq, Razan; Almaslukh, Abdulaziz
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
DQMAF-Marco de Modelado y Evaluación de la Calidad de los Datos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Calidad de datos
Aprendizaje automático
Marco de evaluación
Perfilado
Clasificación
Escalabilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En el ecosistema digital de hoy, donde millones de usuarios interactúan con diversos servicios en línea y generan grandes cantidades de datos textuales, transaccionales y de comportamiento, garantizar la confiabilidad de esta información se ha convertido en un desafío crítico. Los datos de baja calidad, que se manifiestan como incompletitud, inconsistencia, duplicación o ruido, no solo socavan los análisis y los modelos de aprendizaje automático, sino que también exponen a los usuarios desprevenidos a servicios poco confiables, mecanismos de autenticación comprometidos y procesos de toma de decisiones sesgados. Los métodos tradicionales de evaluación de la calidad de los datos, basados en gran medida en la inspección manual o en la validación rígida basada en reglas, no pueden hacer frente a la escala, heterogeneidad y velocidad de los flujos de datos modernos. Para abordar esta brecha, proponemos DQMAF (Marco de Modelado y Evaluación de la Calidad de los Datos), un enfoque generalizado impulsado por el aprendizaje automático que perfila, evalúa y clasifica sistemáticamente la calidad de los datos para proteger a los usuarios finales y mejorar la confiabilidad de los servicios de Internet. DQMAF introduce un mecanismo de perfilado automatizado que mide múltiples dimensiones de la calidad de los datos: completitud, consistencia, precisión y conformidad estructural, y las agrega en puntuaciones de calidad interpretables. Los registros se categorizan en alta, media y baja calidad, lo que permite a los sistemas posteriores filtrar o adaptar su comportamiento en consecuencia. Una fortaleza distintiva de DQMAF radica en integrar el perfilado con modelos de aprendizaje automático supervisado, produciendo evaluaciones de calidad escalables y reutilizables aplicables en dominios como redes sociales, atención médica, IoT y comercio electrónico. El marco incorpora componentes modulares de preprocesamiento, ingeniería de características y clasificación utilizando Árboles de Decisión, Bosques Aleatorios, XGBoost, AdaBoost y CatBoost para equilibrar el rendimiento y la interpretabilidad. Validamos DQMAF en un conjunto de datos de Airbnb disponible públicamente, mostrando su efectividad en la detección y clasificación de problemas de datos con alta precisión. Los resultados destacan su escalabilidad y adaptabilidad para tuberías de big data del mundo real, apoyando la protección del usuario, la clasificación basada en documentos y textos, y la gobernanza proactiva de datos, mientras mejora la confianza en los análisis y aplicaciones impulsadas por IA.
Descripción
En el ecosistema digital de hoy, donde millones de usuarios interactúan con diversos servicios en línea y generan grandes cantidades de datos textuales, transaccionales y de comportamiento, garantizar la confiabilidad de esta información se ha convertido en un desafío crítico. Los datos de baja calidad, que se manifiestan como incompletitud, inconsistencia, duplicación o ruido, no solo socavan los análisis y los modelos de aprendizaje automático, sino que también exponen a los usuarios desprevenidos a servicios poco confiables, mecanismos de autenticación comprometidos y procesos de toma de decisiones sesgados. Los métodos tradicionales de evaluación de la calidad de los datos, basados en gran medida en la inspección manual o en la validación rígida basada en reglas, no pueden hacer frente a la escala, heterogeneidad y velocidad de los flujos de datos modernos. Para abordar esta brecha, proponemos DQMAF (Marco de Modelado y Evaluación de la Calidad de los Datos), un enfoque generalizado impulsado por el aprendizaje automático que perfila, evalúa y clasifica sistemáticamente la calidad de los datos para proteger a los usuarios finales y mejorar la confiabilidad de los servicios de Internet. DQMAF introduce un mecanismo de perfilado automatizado que mide múltiples dimensiones de la calidad de los datos: completitud, consistencia, precisión y conformidad estructural, y las agrega en puntuaciones de calidad interpretables. Los registros se categorizan en alta, media y baja calidad, lo que permite a los sistemas posteriores filtrar o adaptar su comportamiento en consecuencia. Una fortaleza distintiva de DQMAF radica en integrar el perfilado con modelos de aprendizaje automático supervisado, produciendo evaluaciones de calidad escalables y reutilizables aplicables en dominios como redes sociales, atención médica, IoT y comercio electrónico. El marco incorpora componentes modulares de preprocesamiento, ingeniería de características y clasificación utilizando Árboles de Decisión, Bosques Aleatorios, XGBoost, AdaBoost y CatBoost para equilibrar el rendimiento y la interpretabilidad. Validamos DQMAF en un conjunto de datos de Airbnb disponible públicamente, mostrando su efectividad en la detección y clasificación de problemas de datos con alta precisión. Los resultados destacan su escalabilidad y adaptabilidad para tuberías de big data del mundo real, apoyando la protección del usuario, la clasificación basada en documentos y textos, y la gobernanza proactiva de datos, mientras mejora la confianza en los análisis y aplicaciones impulsadas por IA.