Análisis de estabilidad de la programación dinámica heurística dependiente de la acción fuera de línea en lotes utilizando redes neuronales profundas
Autores: Lala, Timotei
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Análisis de estabilidad de la programación dinámica heurística dependiente de la acción fuera de línea en lotes utilizando redes neuronales profundas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Red neuronal profunda
BOADHDP
Estabilidad
Capas ocultas
Tasa de aprendizaje
Controlador
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
En este trabajo, se analiza la estabilidad teórica de la programación dinámica heurística dependiente de la acción en lotes fuera de línea (BOADHDP) para aproximadores de redes neuronales profundas (NN) tanto para la función de valor de acción como para el controlador, que se mejoran iterativamente utilizando experiencias recopiladas del entorno. Nuestros hallazgos extienden la investigación previa sobre la estabilidad del aprendizaje ADHDP adaptativo en línea con NN de una sola capa oculta al abordar el caso de redes neuronales profundas con un número arbitrario de capas ocultas, actualizadas fuera de línea utilizando actualizaciones de descenso de gradiente en lotes. Específicamente, nuestro trabajo muestra que el proceso de aprendizaje de la función de valor de acción y del controlador bajo BOADHDP está uniformemente acotado en última instancia (UUB), sujeto a ciertas condiciones relacionadas con las tasas de aprendizaje de NN. La teoría desarrollada demuestra una relación inversa entre el número de capas ocultas y la magnitud de la tasa de aprendizaje. Presentamos una implementación práctica que implica un sistema aerodinámico de rotor gemelo para enfatizar la diferencia de impacto entre el uso de arquitecturas de NN de una sola capa oculta y de múltiples capas ocultas en entornos de aprendizaje de BOADHDP. El estudio de caso de validación muestra que BOADHDP con una implementación de arquitectura de NN de múltiples capas ocultas obtiene un mejor rendimiento en la prueba de control, mientras que las arquitecturas de NN de una sola capa oculta obtienen , superando a las primeras en un 1.58% utilizando el mismo conjunto de datos recopilados y condiciones de aprendizaje. Además, BOADHDP se compara con ADHDP adaptativo en línea, demostrando la superioridad de lo primero sobre lo último, tanto en términos de rendimiento del controlador como de eficiencia de datos.
Descripción
En este trabajo, se analiza la estabilidad teórica de la programación dinámica heurística dependiente de la acción en lotes fuera de línea (BOADHDP) para aproximadores de redes neuronales profundas (NN) tanto para la función de valor de acción como para el controlador, que se mejoran iterativamente utilizando experiencias recopiladas del entorno. Nuestros hallazgos extienden la investigación previa sobre la estabilidad del aprendizaje ADHDP adaptativo en línea con NN de una sola capa oculta al abordar el caso de redes neuronales profundas con un número arbitrario de capas ocultas, actualizadas fuera de línea utilizando actualizaciones de descenso de gradiente en lotes. Específicamente, nuestro trabajo muestra que el proceso de aprendizaje de la función de valor de acción y del controlador bajo BOADHDP está uniformemente acotado en última instancia (UUB), sujeto a ciertas condiciones relacionadas con las tasas de aprendizaje de NN. La teoría desarrollada demuestra una relación inversa entre el número de capas ocultas y la magnitud de la tasa de aprendizaje. Presentamos una implementación práctica que implica un sistema aerodinámico de rotor gemelo para enfatizar la diferencia de impacto entre el uso de arquitecturas de NN de una sola capa oculta y de múltiples capas ocultas en entornos de aprendizaje de BOADHDP. El estudio de caso de validación muestra que BOADHDP con una implementación de arquitectura de NN de múltiples capas ocultas obtiene un mejor rendimiento en la prueba de control, mientras que las arquitecturas de NN de una sola capa oculta obtienen , superando a las primeras en un 1.58% utilizando el mismo conjunto de datos recopilados y condiciones de aprendizaje. Además, BOADHDP se compara con ADHDP adaptativo en línea, demostrando la superioridad de lo primero sobre lo último, tanto en términos de rendimiento del controlador como de eficiencia de datos.