Inferencia de encuestas no probabilísticas con emparejamiento estadístico y ajuste de puntaje de propensión utilizando técnicas modernas de predicción
Autores: Castro-Martín, Luis; Rueda, Maria del Mar; Ferri-García, Ramón
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Inferencia de encuestas no probabilísticas con emparejamiento estadístico y ajuste de puntaje de propensión utilizando técnicas modernas de predicción
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Encuestas en línea
Muestras sesgadas
Ajuste de puntaje de propensión
Emparejamiento estadístico
Parámetros de población
Algoritmos de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Las encuestas en línea son cada vez más comunes en estudios sociales y de salud, ya que proporcionan resultados rápidos y económicos en comparación con los tradicionales. Sin embargo, estas encuestas a menudo trabajan con muestras sesgadas, ya que la recolección de datos suele ser no probabilística debido a la falta de cobertura de internet en ciertos grupos de población y al procedimiento de autoselección en el que muchas encuestas en línea se basan. Algunos procedimientos han sido propuestos para mitigar el sesgo, como el ajuste de puntaje de propensión (PSA) y el emparejamiento estadístico. En PSA, la propensión a participar en una encuesta no probabilística se estima utilizando una encuesta de referencia de probabilidad, y luego se utiliza para obtener estimaciones ponderadas. En el emparejamiento estadístico, la muestra no probabilística se utiliza para entrenar modelos para predecir los valores de la variable objetivo, y las predicciones de los modelos para la muestra de probabilidad se pueden utilizar para estimar los valores de la población. En este estudio, se comparan ambos métodos utilizando tres conjuntos de datos para simular pseudo-poblaciones de las cuales se extraen muestras no probabilísticas y probabilísticas y se utilizan para estimar parámetros poblacionales. Además, el estudio compara el uso de modelos lineales y algoritmos de predicción de Machine Learning en la estimación de propensión en PSA y en el modelado predictivo en el emparejamiento estadístico. Los resultados muestran que el emparejamiento estadístico supera a PSA en términos de reducción de sesgo y Error Cuadrático Medio (RMSE), y que modelos de predicción más simples, como lineales y de k-Vecinos más Cercanos, proporcionan mejores resultados que los algoritmos de agrupación.
Descripción
Las encuestas en línea son cada vez más comunes en estudios sociales y de salud, ya que proporcionan resultados rápidos y económicos en comparación con los tradicionales. Sin embargo, estas encuestas a menudo trabajan con muestras sesgadas, ya que la recolección de datos suele ser no probabilística debido a la falta de cobertura de internet en ciertos grupos de población y al procedimiento de autoselección en el que muchas encuestas en línea se basan. Algunos procedimientos han sido propuestos para mitigar el sesgo, como el ajuste de puntaje de propensión (PSA) y el emparejamiento estadístico. En PSA, la propensión a participar en una encuesta no probabilística se estima utilizando una encuesta de referencia de probabilidad, y luego se utiliza para obtener estimaciones ponderadas. En el emparejamiento estadístico, la muestra no probabilística se utiliza para entrenar modelos para predecir los valores de la variable objetivo, y las predicciones de los modelos para la muestra de probabilidad se pueden utilizar para estimar los valores de la población. En este estudio, se comparan ambos métodos utilizando tres conjuntos de datos para simular pseudo-poblaciones de las cuales se extraen muestras no probabilísticas y probabilísticas y se utilizan para estimar parámetros poblacionales. Además, el estudio compara el uso de modelos lineales y algoritmos de predicción de Machine Learning en la estimación de propensión en PSA y en el modelado predictivo en el emparejamiento estadístico. Los resultados muestran que el emparejamiento estadístico supera a PSA en términos de reducción de sesgo y Error Cuadrático Medio (RMSE), y que modelos de predicción más simples, como lineales y de k-Vecinos más Cercanos, proporcionan mejores resultados que los algoritmos de agrupación.