logo móvil
Contáctanos

DQMAF-Marco de Modelado y Evaluación de la Calidad de los Datos

Autores: Al-Toq, Razan; Almaslukh, Abdulaziz

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

DQMAF-Marco de Modelado y Evaluación de la Calidad de los Datos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Calidad de datos
Aprendizaje automático
Marco de evaluación
Perfilado
Clasificación
Escalabilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En el ecosistema digital de hoy, donde millones de usuarios interactúan con diversos servicios en línea y generan grandes cantidades de datos textuales, transaccionales y de comportamiento, garantizar la confiabilidad de esta información se ha convertido en un desafío crítico. Los datos de baja calidad, que se manifiestan como incompletitud, inconsistencia, duplicación o ruido, no solo socavan los análisis y los modelos de aprendizaje automático, sino que también exponen a los usuarios desprevenidos a servicios poco confiables, mecanismos de autenticación comprometidos y procesos de toma de decisiones sesgados. Los métodos tradicionales de evaluación de la calidad de los datos, basados en gran medida en la inspección manual o en la validación rígida basada en reglas, no pueden hacer frente a la escala, heterogeneidad y velocidad de los flujos de datos modernos. Para abordar esta brecha, proponemos DQMAF (Marco de Modelado y Evaluación de la Calidad de los Datos), un enfoque generalizado impulsado por el aprendizaje automático que perfila, evalúa y clasifica sistemáticamente la calidad de los datos para proteger a los usuarios finales y mejorar la confiabilidad de los servicios de Internet. DQMAF introduce un mecanismo de perfilado automatizado que mide múltiples dimensiones de la calidad de los datos: completitud, consistencia, precisión y conformidad estructural, y las agrega en puntuaciones de calidad interpretables. Los registros se categorizan en alta, media y baja calidad, lo que permite a los sistemas posteriores filtrar o adaptar su comportamiento en consecuencia. Una fortaleza distintiva de DQMAF radica en integrar el perfilado con modelos de aprendizaje automático supervisado, produciendo evaluaciones de calidad escalables y reutilizables aplicables en dominios como redes sociales, atención médica, IoT y comercio electrónico. El marco incorpora componentes modulares de preprocesamiento, ingeniería de características y clasificación utilizando Árboles de Decisión, Bosques Aleatorios, XGBoost, AdaBoost y CatBoost para equilibrar el rendimiento y la interpretabilidad. Validamos DQMAF en un conjunto de datos de Airbnb disponible públicamente, mostrando su efectividad en la detección y clasificación de problemas de datos con alta precisión. Los resultados destacan su escalabilidad y adaptabilidad para tuberías de big data del mundo real, apoyando la protección del usuario, la clasificación basada en documentos y textos, y la gobernanza proactiva de datos, mientras mejora la confianza en los análisis y aplicaciones impulsadas por IA.

Otros recursos que podrían interesarte

Temas Virtualpro