logo móvil
Contáctanos

Métodos de gradiente estocástico acelerado por etapas para optimización no convexa

Autores: Jia, Cui; Cui, Zhuoxu

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Métodos de gradiente estocástico acelerado por etapas para optimización no convexa


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Optimización a gran escala
Optimización estocástica
Aprendizaje automático
Redes neuronales profundas
Complejidad computacional
Velocidad de convergencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones


Descripción
Para la optimización a gran escala que abarca una amplia gama de problemas de optimización que se encuentran con frecuencia en el aprendizaje automático y las redes neuronales profundas, la optimización estocástica se ha convertido en uno de los métodos más utilizados gracias a su baja complejidad computacional. En los problemas de aprendizaje automático y aprendizaje profundo, los problemas no convexos son comunes, mientras que los problemas convexos son raros. Cómo encontrar el mínimo global para la optimización no convexa y reducir la complejidad computacional son desafíos. Inspirados por el fenómeno de que la estrategia de ajuste de la tasa de paso por etapas puede mejorar empíricamente la velocidad de convergencia en las redes neuronales profundas, incorporamos la estrategia de ajuste de la tasa de paso por etapas en el marco iterativo de los métodos basados en la aceleración de Nesterov y la reducción de la varianza para reducir la complejidad computacional, es decir, la estrategia de ajuste de la tasa de paso por etapas se incorpora en el gradiente acelerado estocástico aleatorizado y el gradiente estocástico con reducción de varianza. Los métodos propuestos se derivan teóricamente para reducir la complejidad de los problemas no convexos y convexos y mejorar la tasa de convergencia de los marcos, que tienen la complejidad y , respectivamente, donde es el módulo PL y es la constante de Lipschitz. Al final, experimentos numéricos en grandes conjuntos de datos de referencia validan bien la competitividad de los métodos propuestos.

Otros recursos que podrían interesarte

Temas Virtualpro