Red de neuronas de picos para control basado en datos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Red de neuronas de picos para control basado en datos

Autores: Liu, Yuxiang; Pan, Wei

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Red de neuronas de picos para control basado en datos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje automático

Bucles de control

Redes neuronales de picos

Aprendizaje por refuerzo

Plasticidad dependiente del tiempo de pico

Equilibrio de poste de carrito

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones

El aprendizaje automático puede aplicarse de manera efectiva en bucles de control para tomar decisiones de control óptimas de manera robusta. Existe un interés creciente en utilizar redes neuronales de disparo (SNNs) como el aparato para el aprendizaje automático en ingeniería de control porque las SNNs pueden ofrecer potencialmente una alta eficiencia energética, y se está desarrollando rápidamente un nuevo hardware neuromórfico habilitador de SNN. Una característica definitoria de los problemas de control es que las reacciones ambientales y las recompensas retardadas deben ser consideradas. Aunque el aprendizaje por refuerzo (RL) proporciona los mecanismos fundamentales para abordar tales problemas, la implementación de estos mecanismos en el aprendizaje de SNN ha sido poco explorada. Anteriormente, se han propuesto esquemas de aprendizaje de plasticidad dependiente del tiempo de disparo (STDP) modulados por factores de diferencia temporal (TD-STDP) o recompensa (R-STDP) para RL con SNN. Aquí, diseñamos e implementamos un controlador SNN para explorar y comparar estos dos esquemas considerando el equilibrio de péndulo invertido como un ejemplo representativo. Aunque las reglas de aprendizaje basadas en TD son muy generales, el modelo resultante muestra una convergencia bastante lenta, produciendo resultados ruidosos e imperfectos incluso después de un entrenamiento prolongado. Mostramos que al integrar la comprensión de la dinámica del entorno en la función de recompensa de R-STDP, un controlador basado en SNN robusto puede ser aprendido de manera mucho más eficiente que con TD-STDP.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro