logo móvil
Contáctanos

Análisis de estabilidad de la programación dinámica heurística dependiente de la acción fuera de línea en lotes utilizando redes neuronales profundas

Autores: Lala, Timotei

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Análisis de estabilidad de la programación dinámica heurística dependiente de la acción fuera de línea en lotes utilizando redes neuronales profundas


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Red neuronal profunda
BOADHDP
Estabilidad
Capas ocultas
Tasa de aprendizaje
Controlador

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 16

Citaciones: Sin citaciones


Descripción
En este trabajo, se analiza la estabilidad teórica de la programación dinámica heurística dependiente de la acción en lotes fuera de línea (BOADHDP) para aproximadores de redes neuronales profundas (NN) tanto para la función de valor de acción como para el controlador, que se mejoran iterativamente utilizando experiencias recopiladas del entorno. Nuestros hallazgos extienden la investigación previa sobre la estabilidad del aprendizaje ADHDP adaptativo en línea con NN de una sola capa oculta al abordar el caso de redes neuronales profundas con un número arbitrario de capas ocultas, actualizadas fuera de línea utilizando actualizaciones de descenso de gradiente en lotes. Específicamente, nuestro trabajo muestra que el proceso de aprendizaje de la función de valor de acción y del controlador bajo BOADHDP está uniformemente acotado en última instancia (UUB), sujeto a ciertas condiciones relacionadas con las tasas de aprendizaje de NN. La teoría desarrollada demuestra una relación inversa entre el número de capas ocultas y la magnitud de la tasa de aprendizaje. Presentamos una implementación práctica que implica un sistema aerodinámico de rotor gemelo para enfatizar la diferencia de impacto entre el uso de arquitecturas de NN de una sola capa oculta y de múltiples capas ocultas en entornos de aprendizaje de BOADHDP. El estudio de caso de validación muestra que BOADHDP con una implementación de arquitectura de NN de múltiples capas ocultas obtiene un mejor rendimiento en la prueba de control, mientras que las arquitecturas de NN de una sola capa oculta obtienen , superando a las primeras en un 1.58% utilizando el mismo conjunto de datos recopilados y condiciones de aprendizaje. Además, BOADHDP se compara con ADHDP adaptativo en línea, demostrando la superioridad de lo primero sobre lo último, tanto en términos de rendimiento del controlador como de eficiencia de datos.

Otros recursos que podrían interesarte

Temas Virtualpro