Bosque logístico aditivo generalizado aleatorio: un nuevo método de conjunto para una clasificación binaria robusta
Autores: Olaniran, Oyebayo Ridwan; Alzahrani, Ali Rashash R.; Alharbi, Nada MohammedSaeed; Alzahrani, Asma Ahmad
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Bosque logístico aditivo generalizado aleatorio: un nuevo método de conjunto para una clasificación binaria robusta
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Métodos de conjunto
RGALF
Modelos aditivos generalizados
Bosque aleatorio
Clasificación binaria
Multicolinealidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Los métodos de conjunto han demostrado ser altamente efectivos en mejorar el rendimiento predictivo al combinar múltiples modelos. Presentamos un enfoque de conjunto novedoso, el Bosque Logístico Aditivo Generalizado Aleatorio (RGALF), que integra modelos aditivos generalizados (GAMs) dentro de un marco de bosque aleatorio para mejorar las tareas de clasificación binaria. A diferencia de los bosques aleatorios tradicionales, que se basan en predicciones constantes por partes en los nodos terminales, RGALF ajusta modelos de regresión logística GAM a los datos en cada nodo terminal, lo que le permite capturar relaciones no lineales complejas e interacciones entre predictores. Al agregar estos GAMs específicos de nodo, RGALF aborda la multicolinealidad, mejora la interpretabilidad y logra mejores compensaciones entre sesgo y varianza, especialmente en entornos no lineales. El análisis teórico confirma que RGALF logra las tasas óptimas de Stone para modelos aditivos bajo condiciones apropiadas, superando la convergencia más lenta de los bosques aleatorios tradicionales. Además, los resultados empíricos demuestran la efectividad de RGALF en conjuntos de datos simulados y del mundo real. En simulaciones, RGALF muestra un rendimiento superior a los bosques aleatorios, reduciendo la varianza hasta un 69% y el sesgo en un 19% en entornos no lineales, con mejoras significativas en el error cuadrático medio (0.032 frente a 0.054 de los bosques aleatorios) mientras logra tasas óptimas de convergencia. En conjuntos de datos médicos del mundo real, RGALF alcanza una precisión y un AUC casi perfectos: 100% de precisión/AUC para la predicción de Insuficiencia Cardíaca y Hepatitis C (VHC), 99% de precisión/100% de AUC para la Diabetes de Pima, y 98.8% de precisión/100% de AUC para Pacientes de Hígado Indio (ILPD), superando a métodos de vanguardia. Notablemente, RGALF captura interacciones de biomarcadores complejas (IMC-insulina en diabetes) que los modelos tradicionales no detectan.
Descripción
Los métodos de conjunto han demostrado ser altamente efectivos en mejorar el rendimiento predictivo al combinar múltiples modelos. Presentamos un enfoque de conjunto novedoso, el Bosque Logístico Aditivo Generalizado Aleatorio (RGALF), que integra modelos aditivos generalizados (GAMs) dentro de un marco de bosque aleatorio para mejorar las tareas de clasificación binaria. A diferencia de los bosques aleatorios tradicionales, que se basan en predicciones constantes por partes en los nodos terminales, RGALF ajusta modelos de regresión logística GAM a los datos en cada nodo terminal, lo que le permite capturar relaciones no lineales complejas e interacciones entre predictores. Al agregar estos GAMs específicos de nodo, RGALF aborda la multicolinealidad, mejora la interpretabilidad y logra mejores compensaciones entre sesgo y varianza, especialmente en entornos no lineales. El análisis teórico confirma que RGALF logra las tasas óptimas de Stone para modelos aditivos bajo condiciones apropiadas, superando la convergencia más lenta de los bosques aleatorios tradicionales. Además, los resultados empíricos demuestran la efectividad de RGALF en conjuntos de datos simulados y del mundo real. En simulaciones, RGALF muestra un rendimiento superior a los bosques aleatorios, reduciendo la varianza hasta un 69% y el sesgo en un 19% en entornos no lineales, con mejoras significativas en el error cuadrático medio (0.032 frente a 0.054 de los bosques aleatorios) mientras logra tasas óptimas de convergencia. En conjuntos de datos médicos del mundo real, RGALF alcanza una precisión y un AUC casi perfectos: 100% de precisión/AUC para la predicción de Insuficiencia Cardíaca y Hepatitis C (VHC), 99% de precisión/100% de AUC para la Diabetes de Pima, y 98.8% de precisión/100% de AUC para Pacientes de Hígado Indio (ILPD), superando a métodos de vanguardia. Notablemente, RGALF captura interacciones de biomarcadores complejas (IMC-insulina en diabetes) que los modelos tradicionales no detectan.