Clasificador EVCA: Un clasificador basado en MCMC para analizar datos masivos de alta dimensión
Autores: Vlachou, Eleni; Karras, Christos; Karras, Aristeidis; Tsolis, Dimitrios; Sioutas, Spyros
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Clasificador EVCA: Un clasificador basado en MCMC para analizar datos masivos de alta dimensión
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Innovador
Aprendizaje automático bayesiano
Apache Spark
Gestión de grandes datos
Análisis ambiental
Cadena de Markov Monte Carlo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En este trabajo, presentamos un innovador clasificador de Monte Carlo por Cadenas de Markov (MCMC), una combinación sinérgica de aprendizaje automático bayesiano y Apache Spark, destacando el uso novedoso de esta metodología en el espectro de la gestión de grandes datos y el análisis ambiental. Al emplear un gran conjunto de datos de concentraciones de contaminantes del aire en Madrid desde 2001 hasta 2018, desarrollamos un modelo de Regresión Logística Bayesiana, capaz de clasificar con precisión el Índice de Calidad del Aire (AQI) como seguro o peligroso. Esta formulación matemática sintetiza hábilmente creencias previas y datos observados en distribuciones posteriores robustas, lo que permite una gestión superior del sobreajuste, mejora la precisión predictiva y demuestra un enfoque escalable para el procesamiento de datos a gran escala. Notablemente, el modelo propuesto alcanzó una precisión máxima del 87.91% y un valor de recuperación excepcional del 99.58% en un umbral de decisión de 0.505, reflejando su competencia en identificar con precisión los verdaderos negativos y mitigar la mala clasificación, aunque tuvo un rendimiento ligeramente inferior en comparación con la Regresión Logística Frequentista tradicional en términos de precisión y la puntuación AUC. En última instancia, esta investigación subraya la eficacia del aprendizaje automático bayesiano para la gestión de grandes datos y el análisis ambiental, al tiempo que significa el papel fundamental del primer clasificador MCMC y Apache Spark para enfrentar los desafíos planteados por grandes conjuntos de datos y datos de alta dimensión con implicaciones más amplias no solo en sectores como la estadística, las matemáticas, la física, sino también en aplicaciones prácticas del mundo real.
Descripción
En este trabajo, presentamos un innovador clasificador de Monte Carlo por Cadenas de Markov (MCMC), una combinación sinérgica de aprendizaje automático bayesiano y Apache Spark, destacando el uso novedoso de esta metodología en el espectro de la gestión de grandes datos y el análisis ambiental. Al emplear un gran conjunto de datos de concentraciones de contaminantes del aire en Madrid desde 2001 hasta 2018, desarrollamos un modelo de Regresión Logística Bayesiana, capaz de clasificar con precisión el Índice de Calidad del Aire (AQI) como seguro o peligroso. Esta formulación matemática sintetiza hábilmente creencias previas y datos observados en distribuciones posteriores robustas, lo que permite una gestión superior del sobreajuste, mejora la precisión predictiva y demuestra un enfoque escalable para el procesamiento de datos a gran escala. Notablemente, el modelo propuesto alcanzó una precisión máxima del 87.91% y un valor de recuperación excepcional del 99.58% en un umbral de decisión de 0.505, reflejando su competencia en identificar con precisión los verdaderos negativos y mitigar la mala clasificación, aunque tuvo un rendimiento ligeramente inferior en comparación con la Regresión Logística Frequentista tradicional en términos de precisión y la puntuación AUC. En última instancia, esta investigación subraya la eficacia del aprendizaje automático bayesiano para la gestión de grandes datos y el análisis ambiental, al tiempo que significa el papel fundamental del primer clasificador MCMC y Apache Spark para enfrentar los desafíos planteados por grandes conjuntos de datos y datos de alta dimensión con implicaciones más amplias no solo en sectores como la estadística, las matemáticas, la física, sino también en aplicaciones prácticas del mundo real.