Ambigüedades, sesgos incorporados y fallas en la extracción de información de grandes datos
Autores: Galam, Serge
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Ambigüedades, sesgos incorporados y fallas en la extracción de información de grandes datos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Grandes conjuntos de datos
Clasificación jerárquica
Macro-color
Reglas de mayoría local
Sesgo sistemático
Reducción de datos recursiva
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Abordo el desafío de extraer información confiable de grandes conjuntos de datos utilizando un modelo simplificado que ilustra cómo la clasificación jerárquica puede distorsionar los resultados. El modelo consiste en píxeles discretos etiquetados como rojo, azul o blanco. El rojo y el azul indican propiedades distintas, mientras que el blanco representa datos no clasificados o ambiguos. Se asigna un macro-color solo si un color tiene una mayoría estricta entre los píxeles. De lo contrario, el agregado se etiqueta como blanco, reflejando incertidumbre. Esta configuración imita un umbral de percolación del cincuenta por ciento. Suponiendo que acceder directamente a las diversas proporciones de los colores en los datos es inviable, implemento un procedimiento jerárquico de agrupamiento grueso. Los elementos (primeros píxeles, luego agregados) se agrupan y reclasifican recursivamente a través de reglas de mayoría local, produciendo finalmente un único super-agregado para el cual el color representa la macro-propiedad inferida de la colección de píxeles en su conjunto. Resultados analíticos respaldados por simulaciones muestran que el proceso introduce agregados blancos adicionales más allá de los píxeles blancos, que podrían estar presentes inicialmente; estos surgen de grupos que carecen de una mayoría clara, requiriendo decisiones arbitrarias de ruptura de simetría para atribuirles un color. Aunque cada resolución local puede parecer menor e inconsecuente, sus repeticiones introducen un sesgo sistemático creciente. Incluso con datos completos, se demuestra que las asimetrías inevitables en las reglas locales sesgan los resultados. Este estudio destaca una limitación crítica de la reducción de datos recursiva. La extracción de información se ve moldeada no solo por la calidad de los datos, sino también por cómo se maneja la ambigüedad local, resultando en sesgos incorporados. Así, los defectos relacionados no se deben a los datos, sino a las elecciones estructurales realizadas durante las agregaciones locales. Aunque basado en un modelo simple, estos hallazgos exponen una alta probabilidad de defectos inherentes en las técnicas de clasificación jerárquica ampliamente utilizadas.
Descripción
Abordo el desafío de extraer información confiable de grandes conjuntos de datos utilizando un modelo simplificado que ilustra cómo la clasificación jerárquica puede distorsionar los resultados. El modelo consiste en píxeles discretos etiquetados como rojo, azul o blanco. El rojo y el azul indican propiedades distintas, mientras que el blanco representa datos no clasificados o ambiguos. Se asigna un macro-color solo si un color tiene una mayoría estricta entre los píxeles. De lo contrario, el agregado se etiqueta como blanco, reflejando incertidumbre. Esta configuración imita un umbral de percolación del cincuenta por ciento. Suponiendo que acceder directamente a las diversas proporciones de los colores en los datos es inviable, implemento un procedimiento jerárquico de agrupamiento grueso. Los elementos (primeros píxeles, luego agregados) se agrupan y reclasifican recursivamente a través de reglas de mayoría local, produciendo finalmente un único super-agregado para el cual el color representa la macro-propiedad inferida de la colección de píxeles en su conjunto. Resultados analíticos respaldados por simulaciones muestran que el proceso introduce agregados blancos adicionales más allá de los píxeles blancos, que podrían estar presentes inicialmente; estos surgen de grupos que carecen de una mayoría clara, requiriendo decisiones arbitrarias de ruptura de simetría para atribuirles un color. Aunque cada resolución local puede parecer menor e inconsecuente, sus repeticiones introducen un sesgo sistemático creciente. Incluso con datos completos, se demuestra que las asimetrías inevitables en las reglas locales sesgan los resultados. Este estudio destaca una limitación crítica de la reducción de datos recursiva. La extracción de información se ve moldeada no solo por la calidad de los datos, sino también por cómo se maneja la ambigüedad local, resultando en sesgos incorporados. Así, los defectos relacionados no se deben a los datos, sino a las elecciones estructurales realizadas durante las agregaciones locales. Aunque basado en un modelo simple, estos hallazgos exponen una alta probabilidad de defectos inherentes en las técnicas de clasificación jerárquica ampliamente utilizadas.