Taid-lca: algoritmo de segmentación basado en árboles ternarios
Autores: Castro-López, Claudio; Vicente-Galindo, Purificación; Galindo-Villardón, Purificación; Borrego-Hernández, Oscar
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Taid-lca: algoritmo de segmentación basado en árboles ternarios
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Método estadístico
Segmentación
Estructura de árbol ternario
Respuesta multivariada
Modelos de clases latentes
Análisis de Correspondencias No Simétricas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
En este trabajo se presenta un método estadístico para la segmentación de muestras y/o poblaciones, basado en una estructura de árbol ternario. Este enfoque supera las limitaciones conocidas de otros métodos de segmentación como CHAID, en lo que respecta a la respuesta multivariante y la relación no simétrica entre las variables explicativas y de respuesta. El problema de segmentación de respuesta multivariante se aborda a través de modelos de clases latentes, mientras que la descomposición factorial de la capacidad explicativa de las variables se basa en el Análisis de Correspondencias No Simétricas. Se proponen criterios de parada basados en el índice CATANOVA y medidas de impureza. Se considera una estrategia de post-poda basada en Recocido Simulado para evitar el sobreajuste en relación con el conjunto de entrenamiento y garantizar una mejor capacidad de generalización para el método.
Descripción
En este trabajo se presenta un método estadístico para la segmentación de muestras y/o poblaciones, basado en una estructura de árbol ternario. Este enfoque supera las limitaciones conocidas de otros métodos de segmentación como CHAID, en lo que respecta a la respuesta multivariante y la relación no simétrica entre las variables explicativas y de respuesta. El problema de segmentación de respuesta multivariante se aborda a través de modelos de clases latentes, mientras que la descomposición factorial de la capacidad explicativa de las variables se basa en el Análisis de Correspondencias No Simétricas. Se proponen criterios de parada basados en el índice CATANOVA y medidas de impureza. Se considera una estrategia de post-poda basada en Recocido Simulado para evitar el sobreajuste en relación con el conjunto de entrenamiento y garantizar una mejor capacidad de generalización para el método.