Un enfoque basado en web scraping y codificadores de denoising para curar conjuntos de datos de seguridad alimentaria
Autores: Santos, Fabián; Acosta, Nicole
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un enfoque basado en web scraping y codificadores de denoising para curar conjuntos de datos de seguridad alimentaria
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Ciencias Agrícolas y Biológicas Generales
Palabras clave
Seguridad alimentaria
Publicación de datos
Bases de datos
Web scraping
Imputación
Ecuador
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Asegurar la seguridad alimentaria requiere la publicación de datos de manera oportuna, pero a menudo esta información no está debidamente documentada y evaluada. Por lo tanto, la combinación de bases de datos de múltiples fuentes es una práctica común para curar los datos y corroborar los resultados; sin embargo, esto también resulta en casos incompletos. Estas tareas suelen ser intensivas en mano de obra ya que requieren una revisión caso por caso para obtener la información solicitada y completada. Para abordar estos problemas, se presenta un enfoque basado en el software de web scraping Selenium y el algoritmo de autoencoders de imputación múltiple denoising (MIDAS) para un estudio de caso en Ecuador. El objetivo era producir una base de datos multidimensional, sin lagunas de datos, con 72 especies de cultivos alimenticios basados en los datos de 3 diferentes bases de datos web de datos abiertos. Esta metodología resultó en un conjunto de datos listo para el análisis con 43 parámetros que describen rasgos de las plantas, composición nutricional y áreas plantadas de cultivos alimenticios, cuyos datos imputados obtuvieron un R-cuadrado de 0.84 para un parámetro numérico de control seleccionado para validación. Este conjunto de datos enriquecido fue posteriormente agrupado con K-means para informar ideas sin precedentes sobre los cultivos alimenticios cultivados en Ecuador. La metodología es útil para usuarios que necesitan recopilar y curar datos de diferentes fuentes de manera semiautomática.
Descripción
Asegurar la seguridad alimentaria requiere la publicación de datos de manera oportuna, pero a menudo esta información no está debidamente documentada y evaluada. Por lo tanto, la combinación de bases de datos de múltiples fuentes es una práctica común para curar los datos y corroborar los resultados; sin embargo, esto también resulta en casos incompletos. Estas tareas suelen ser intensivas en mano de obra ya que requieren una revisión caso por caso para obtener la información solicitada y completada. Para abordar estos problemas, se presenta un enfoque basado en el software de web scraping Selenium y el algoritmo de autoencoders de imputación múltiple denoising (MIDAS) para un estudio de caso en Ecuador. El objetivo era producir una base de datos multidimensional, sin lagunas de datos, con 72 especies de cultivos alimenticios basados en los datos de 3 diferentes bases de datos web de datos abiertos. Esta metodología resultó en un conjunto de datos listo para el análisis con 43 parámetros que describen rasgos de las plantas, composición nutricional y áreas plantadas de cultivos alimenticios, cuyos datos imputados obtuvieron un R-cuadrado de 0.84 para un parámetro numérico de control seleccionado para validación. Este conjunto de datos enriquecido fue posteriormente agrupado con K-means para informar ideas sin precedentes sobre los cultivos alimenticios cultivados en Ecuador. La metodología es útil para usuarios que necesitan recopilar y curar datos de diferentes fuentes de manera semiautomática.