logo móvil
Contáctanos

Ambigüedades, sesgos incorporados y fallas en la extracción de información de grandes datos

Autores: Galam, Serge

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Ambigüedades, sesgos incorporados y fallas en la extracción de información de grandes datos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Grandes conjuntos de datos
Clasificación jerárquica
Macro-color
Reglas de mayoría local
Sesgo sistemático
Reducción de datos recursiva

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Abordo el desafío de extraer información confiable de grandes conjuntos de datos utilizando un modelo simplificado que ilustra cómo la clasificación jerárquica puede distorsionar los resultados. El modelo consiste en píxeles discretos etiquetados como rojo, azul o blanco. El rojo y el azul indican propiedades distintas, mientras que el blanco representa datos no clasificados o ambiguos. Se asigna un macro-color solo si un color tiene una mayoría estricta entre los píxeles. De lo contrario, el agregado se etiqueta como blanco, reflejando incertidumbre. Esta configuración imita un umbral de percolación del cincuenta por ciento. Suponiendo que acceder directamente a las diversas proporciones de los colores en los datos es inviable, implemento un procedimiento jerárquico de agrupamiento grueso. Los elementos (primeros píxeles, luego agregados) se agrupan y reclasifican recursivamente a través de reglas de mayoría local, produciendo finalmente un único super-agregado para el cual el color representa la macro-propiedad inferida de la colección de píxeles en su conjunto. Resultados analíticos respaldados por simulaciones muestran que el proceso introduce agregados blancos adicionales más allá de los píxeles blancos, que podrían estar presentes inicialmente; estos surgen de grupos que carecen de una mayoría clara, requiriendo decisiones arbitrarias de ruptura de simetría para atribuirles un color. Aunque cada resolución local puede parecer menor e inconsecuente, sus repeticiones introducen un sesgo sistemático creciente. Incluso con datos completos, se demuestra que las asimetrías inevitables en las reglas locales sesgan los resultados. Este estudio destaca una limitación crítica de la reducción de datos recursiva. La extracción de información se ve moldeada no solo por la calidad de los datos, sino también por cómo se maneja la ambigüedad local, resultando en sesgos incorporados. Así, los defectos relacionados no se deben a los datos, sino a las elecciones estructurales realizadas durante las agregaciones locales. Aunque basado en un modelo simple, estos hallazgos exponen una alta probabilidad de defectos inherentes en las técnicas de clasificación jerárquica ampliamente utilizadas.

Otros recursos que podrían interesarte

Temas Virtualpro