Red de neuronas de picos para control basado en datos
Autores: Liu, Yuxiang; Pan, Wei
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Red de neuronas de picos para control basado en datos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje automático
Bucles de control
Redes neuronales de picos
Aprendizaje por refuerzo
Plasticidad dependiente del tiempo de pico
Equilibrio de poste de carrito
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
El aprendizaje automático puede aplicarse de manera efectiva en bucles de control para tomar decisiones de control óptimas de manera robusta. Existe un interés creciente en utilizar redes neuronales de disparo (SNNs) como el aparato para el aprendizaje automático en ingeniería de control porque las SNNs pueden ofrecer potencialmente una alta eficiencia energética, y se está desarrollando rápidamente un nuevo hardware neuromórfico habilitador de SNN. Una característica definitoria de los problemas de control es que las reacciones ambientales y las recompensas retardadas deben ser consideradas. Aunque el aprendizaje por refuerzo (RL) proporciona los mecanismos fundamentales para abordar tales problemas, la implementación de estos mecanismos en el aprendizaje de SNN ha sido poco explorada. Anteriormente, se han propuesto esquemas de aprendizaje de plasticidad dependiente del tiempo de disparo (STDP) modulados por factores de diferencia temporal (TD-STDP) o recompensa (R-STDP) para RL con SNN. Aquí, diseñamos e implementamos un controlador SNN para explorar y comparar estos dos esquemas considerando el equilibrio de péndulo invertido como un ejemplo representativo. Aunque las reglas de aprendizaje basadas en TD son muy generales, el modelo resultante muestra una convergencia bastante lenta, produciendo resultados ruidosos e imperfectos incluso después de un entrenamiento prolongado. Mostramos que al integrar la comprensión de la dinámica del entorno en la función de recompensa de R-STDP, un controlador basado en SNN robusto puede ser aprendido de manera mucho más eficiente que con TD-STDP.
Descripción
El aprendizaje automático puede aplicarse de manera efectiva en bucles de control para tomar decisiones de control óptimas de manera robusta. Existe un interés creciente en utilizar redes neuronales de disparo (SNNs) como el aparato para el aprendizaje automático en ingeniería de control porque las SNNs pueden ofrecer potencialmente una alta eficiencia energética, y se está desarrollando rápidamente un nuevo hardware neuromórfico habilitador de SNN. Una característica definitoria de los problemas de control es que las reacciones ambientales y las recompensas retardadas deben ser consideradas. Aunque el aprendizaje por refuerzo (RL) proporciona los mecanismos fundamentales para abordar tales problemas, la implementación de estos mecanismos en el aprendizaje de SNN ha sido poco explorada. Anteriormente, se han propuesto esquemas de aprendizaje de plasticidad dependiente del tiempo de disparo (STDP) modulados por factores de diferencia temporal (TD-STDP) o recompensa (R-STDP) para RL con SNN. Aquí, diseñamos e implementamos un controlador SNN para explorar y comparar estos dos esquemas considerando el equilibrio de péndulo invertido como un ejemplo representativo. Aunque las reglas de aprendizaje basadas en TD son muy generales, el modelo resultante muestra una convergencia bastante lenta, produciendo resultados ruidosos e imperfectos incluso después de un entrenamiento prolongado. Mostramos que al integrar la comprensión de la dinámica del entorno en la función de recompensa de R-STDP, un controlador basado en SNN robusto puede ser aprendido de manera mucho más eficiente que con TD-STDP.