logo móvil
Contáctanos

Red de neuronas de picos para control basado en datos

Autores: Liu, Yuxiang; Pan, Wei

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Red de neuronas de picos para control basado en datos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje automático
Bucles de control
Redes neuronales de picos
Aprendizaje por refuerzo
Plasticidad dependiente del tiempo de pico
Equilibrio de poste de carrito

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
El aprendizaje automático puede aplicarse de manera efectiva en bucles de control para tomar decisiones de control óptimas de manera robusta. Existe un interés creciente en utilizar redes neuronales de disparo (SNNs) como el aparato para el aprendizaje automático en ingeniería de control porque las SNNs pueden ofrecer potencialmente una alta eficiencia energética, y se está desarrollando rápidamente un nuevo hardware neuromórfico habilitador de SNN. Una característica definitoria de los problemas de control es que las reacciones ambientales y las recompensas retardadas deben ser consideradas. Aunque el aprendizaje por refuerzo (RL) proporciona los mecanismos fundamentales para abordar tales problemas, la implementación de estos mecanismos en el aprendizaje de SNN ha sido poco explorada. Anteriormente, se han propuesto esquemas de aprendizaje de plasticidad dependiente del tiempo de disparo (STDP) modulados por factores de diferencia temporal (TD-STDP) o recompensa (R-STDP) para RL con SNN. Aquí, diseñamos e implementamos un controlador SNN para explorar y comparar estos dos esquemas considerando el equilibrio de péndulo invertido como un ejemplo representativo. Aunque las reglas de aprendizaje basadas en TD son muy generales, el modelo resultante muestra una convergencia bastante lenta, produciendo resultados ruidosos e imperfectos incluso después de un entrenamiento prolongado. Mostramos que al integrar la comprensión de la dinámica del entorno en la función de recompensa de R-STDP, un controlador basado en SNN robusto puede ser aprendido de manera mucho más eficiente que con TD-STDP.

Otros recursos que podrían interesarte

Temas Virtualpro