logo móvil
Contáctanos

Un enfoque basado en web scraping y codificadores de denoising para curar conjuntos de datos de seguridad alimentaria

Autores: Santos, Fabián; Acosta, Nicole

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un enfoque basado en web scraping y codificadores de denoising para curar conjuntos de datos de seguridad alimentaria


Categoría

Ciencias Agrícolas y Biológicas

Subcategoría

Ciencias Agrícolas y Biológicas Generales

Palabras clave

Seguridad alimentaria
Publicación de datos
Bases de datos
Web scraping
Imputación
Ecuador

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones


Descripción
Asegurar la seguridad alimentaria requiere la publicación de datos de manera oportuna, pero a menudo esta información no está debidamente documentada y evaluada. Por lo tanto, la combinación de bases de datos de múltiples fuentes es una práctica común para curar los datos y corroborar los resultados; sin embargo, esto también resulta en casos incompletos. Estas tareas suelen ser intensivas en mano de obra ya que requieren una revisión caso por caso para obtener la información solicitada y completada. Para abordar estos problemas, se presenta un enfoque basado en el software de web scraping Selenium y el algoritmo de autoencoders de imputación múltiple denoising (MIDAS) para un estudio de caso en Ecuador. El objetivo era producir una base de datos multidimensional, sin lagunas de datos, con 72 especies de cultivos alimenticios basados en los datos de 3 diferentes bases de datos web de datos abiertos. Esta metodología resultó en un conjunto de datos listo para el análisis con 43 parámetros que describen rasgos de las plantas, composición nutricional y áreas plantadas de cultivos alimenticios, cuyos datos imputados obtuvieron un R-cuadrado de 0.84 para un parámetro numérico de control seleccionado para validación. Este conjunto de datos enriquecido fue posteriormente agrupado con K-means para informar ideas sin precedentes sobre los cultivos alimenticios cultivados en Ecuador. La metodología es útil para usuarios que necesitan recopilar y curar datos de diferentes fuentes de manera semiautomática.

Otros recursos que podrían interesarte

Temas Virtualpro