Grandes pero sesgados análisis de datos para la calidad del aire
Autores: Borrajo, Laura; Cao, Ricardo
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Grandes pero sesgados análisis de datos para la calidad del aire
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Contaminación del aire
Análisis de grandes datos
Calidad del aire urbano
Estimación de densidad de núcleo
Función de peso sesgante
Algoritmo de arranque
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
La contaminación del aire es una de las grandes preocupaciones para las ciudades inteligentes. El problema de aplicar análisis de datos masivos al sesgo de muestreo en el contexto de la calidad del aire urbano se estudia en este documento. Se utiliza un estimador no paramétrico que incorpora la estimación de la densidad del núcleo. Al ignorar la función de peso sesgante, se asume que se observa adicionalmente una muestra aleatoria simple de pequeño tamaño de la población real. El parámetro general considerado es la media de una transformación de la variable aleatoria de interés. Se utiliza un nuevo algoritmo de bootstrap para aproximar el error cuadrático medio del nuevo estimador. Su minimización conduce a un selector automático de ancho de banda. El método se aplica a un conjunto de datos reales sobre los niveles de diferentes contaminantes en el aire urbano de la ciudad de A Coruña (Galicia, noroeste de España). Se obtienen estimaciones para la media y la función de distribución acumulativa del nivel de ozono y dióxido de nitrógeno cuando la temperatura es mayor o igual a 30 ºC basado en 15 años de datos sesgados.
Descripción
La contaminación del aire es una de las grandes preocupaciones para las ciudades inteligentes. El problema de aplicar análisis de datos masivos al sesgo de muestreo en el contexto de la calidad del aire urbano se estudia en este documento. Se utiliza un estimador no paramétrico que incorpora la estimación de la densidad del núcleo. Al ignorar la función de peso sesgante, se asume que se observa adicionalmente una muestra aleatoria simple de pequeño tamaño de la población real. El parámetro general considerado es la media de una transformación de la variable aleatoria de interés. Se utiliza un nuevo algoritmo de bootstrap para aproximar el error cuadrático medio del nuevo estimador. Su minimización conduce a un selector automático de ancho de banda. El método se aplica a un conjunto de datos reales sobre los niveles de diferentes contaminantes en el aire urbano de la ciudad de A Coruña (Galicia, noroeste de España). Se obtienen estimaciones para la media y la función de distribución acumulativa del nivel de ozono y dióxido de nitrógeno cuando la temperatura es mayor o igual a 30 ºC basado en 15 años de datos sesgados.