Agrupación de funciones de distribución empírica de arranque parametrizadas por procesos de ramificación Galton-Watson
Autores: Varmann, Lauri; Mouriño, Helena
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Agrupación de funciones de distribución empírica de arranque parametrizadas por procesos de ramificación Galton-Watson
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Bootstrap no paramétrico
Análisis de clúster
Variabilidad de muestreo
Función de distribución de muestreo
Agrupamiento
Estudio de simulación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
El bootstrap no paramétrico se ha utilizado en el análisis de conglomerados con diversos propósitos. Uno de esos propósitos es tener en cuenta la variabilidad de muestreo. Esto se puede lograr obteniendo una aproximación de bootstrap de la función de distribución de muestreo del estimador de interés y luego agrupando esas funciones de distribución. Aunque la consistencia del bootstrap no paramétrico en la estimación de transformaciones de la media muestral se ha conocido durante décadas, se sabe poco sobre cómo se traslada al agrupamiento. Aquí, investigamos este problema con un estudio de simulación. Consideramos el agrupamiento jerárquico aglomerativo de enlace único y un proceso de ramificación de tres tipos para transformaciones parametrizadas de vectores aleatorios de frecuencias relativas de posibles tipos del caso índice de cada proceso. En total, hubo nueve factores y 216 escenarios de simulación en un diseño completamente factorial. La capacidad del agrupamiento basado en bootstrap para recuperar los agrupamientos verdaderos se cuantificó mediante la distancia de transferencia ajustada entre particiones. Los resultados mostraron que en los mejores 18 escenarios, el valor promedio de la distancia fue inferior al 20 por ciento del valor máximo de distancia posible. Notamos que los resultados dependían principalmente del número de conglomerados retenidos, la distribución para el muestreo de la prevalencia de tipos y el tamaño de la muestra que aparece en los denominadores de los tipos de frecuencia relativa. La comparación de los resultados del agrupamiento basado en bootstrap con los resultados de particionamiento aleatorio no informado mostró que en la gran mayoría de escenarios considerados, el enfoque basado en bootstrap llevó, en promedio, a errores de clasificación notablemente más bajos que el particionamiento aleatorio.
Descripción
El bootstrap no paramétrico se ha utilizado en el análisis de conglomerados con diversos propósitos. Uno de esos propósitos es tener en cuenta la variabilidad de muestreo. Esto se puede lograr obteniendo una aproximación de bootstrap de la función de distribución de muestreo del estimador de interés y luego agrupando esas funciones de distribución. Aunque la consistencia del bootstrap no paramétrico en la estimación de transformaciones de la media muestral se ha conocido durante décadas, se sabe poco sobre cómo se traslada al agrupamiento. Aquí, investigamos este problema con un estudio de simulación. Consideramos el agrupamiento jerárquico aglomerativo de enlace único y un proceso de ramificación de tres tipos para transformaciones parametrizadas de vectores aleatorios de frecuencias relativas de posibles tipos del caso índice de cada proceso. En total, hubo nueve factores y 216 escenarios de simulación en un diseño completamente factorial. La capacidad del agrupamiento basado en bootstrap para recuperar los agrupamientos verdaderos se cuantificó mediante la distancia de transferencia ajustada entre particiones. Los resultados mostraron que en los mejores 18 escenarios, el valor promedio de la distancia fue inferior al 20 por ciento del valor máximo de distancia posible. Notamos que los resultados dependían principalmente del número de conglomerados retenidos, la distribución para el muestreo de la prevalencia de tipos y el tamaño de la muestra que aparece en los denominadores de los tipos de frecuencia relativa. La comparación de los resultados del agrupamiento basado en bootstrap con los resultados de particionamiento aleatorio no informado mostró que en la gran mayoría de escenarios considerados, el enfoque basado en bootstrap llevó, en promedio, a errores de clasificación notablemente más bajos que el particionamiento aleatorio.