Modelo de clasificación binaria inflado de cero con regularización Elastic Net
Autores: Xin, Hua; Lio, Yuhlong; Chen, Hsien-Ching; Tsai, Tzong-Ru
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Modelo de clasificación binaria inflado de cero con regularización Elastic Net
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Inflación
Sobreajuste
Modelos de aprendizaje automático
Modelo ZIBer
Función de pérdida
Procedimiento de estimación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
La inflación cero y el sobreajuste pueden reducir la tasa de precisión al utilizar modelos de aprendizaje automático para caracterizar conjuntos de datos binarios. Un modelo Bernoulli inflado en cero (ZIBer) puede ser el modelo adecuado para caracterizar conjuntos de datos binarios inflados en cero. Cuando se utiliza el modelo ZIBer para caracterizar conjuntos de datos binarios inflados en cero, superar el problema de sobreajuste sigue siendo una pregunta abierta. Para mejorar el problema de sobreajuste al utilizar el modelo ZIBer, se propone la función de pérdida del menos logaritmo de verosimilitud del modelo ZIBer con la regla de regularización de red elástica para una penalización por sobreajuste. Un procedimiento de estimación para minimizar la función de pérdida se desarrolla en este estudio utilizando el método de descenso de gradiente (GDM) con el término de momento como tasa de aprendizaje. El método de estimación propuesto tiene dos ventajas. Primero, el método de estimación propuesto puede ser un método general que utiliza simultáneamente términos de penalización - y -norma e incluye los métodos de operador de contracción más pequeño y selección de la cresta como casos especiales. En segundo lugar, la tasa de aprendizaje de momento puede acelerar la convergencia del GDM y mejorar la eficiencia computacional del procedimiento de estimación propuesto. Se estudia la estrategia de selección de parámetros y se evalúa el rendimiento del método propuesto utilizando simulaciones de Monte Carlo. Se utiliza un ejemplo de diabetes como ilustración.
Descripción
La inflación cero y el sobreajuste pueden reducir la tasa de precisión al utilizar modelos de aprendizaje automático para caracterizar conjuntos de datos binarios. Un modelo Bernoulli inflado en cero (ZIBer) puede ser el modelo adecuado para caracterizar conjuntos de datos binarios inflados en cero. Cuando se utiliza el modelo ZIBer para caracterizar conjuntos de datos binarios inflados en cero, superar el problema de sobreajuste sigue siendo una pregunta abierta. Para mejorar el problema de sobreajuste al utilizar el modelo ZIBer, se propone la función de pérdida del menos logaritmo de verosimilitud del modelo ZIBer con la regla de regularización de red elástica para una penalización por sobreajuste. Un procedimiento de estimación para minimizar la función de pérdida se desarrolla en este estudio utilizando el método de descenso de gradiente (GDM) con el término de momento como tasa de aprendizaje. El método de estimación propuesto tiene dos ventajas. Primero, el método de estimación propuesto puede ser un método general que utiliza simultáneamente términos de penalización - y -norma e incluye los métodos de operador de contracción más pequeño y selección de la cresta como casos especiales. En segundo lugar, la tasa de aprendizaje de momento puede acelerar la convergencia del GDM y mejorar la eficiencia computacional del procedimiento de estimación propuesto. Se estudia la estrategia de selección de parámetros y se evalúa el rendimiento del método propuesto utilizando simulaciones de Monte Carlo. Se utiliza un ejemplo de diabetes como ilustración.