logo móvil
Contáctanos

F-DRL: Aprendizaje de Representación Dinámica Federada para Aprendizaje por Refuerzo Multi-Tarea Robusto

Autores: Upadhyay, Anurag; Lu, Xin; Baradaranshokouhi, Yashar; Li, Jun; Jing, Yanguo

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

F-DRL: Aprendizaje de Representación Dinámica Federada para Aprendizaje por Refuerzo Multi-Tarea Robusto


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje por refuerzo
Manipulación robótica
Entornos federados
Aprendizaje de representaciones
Modelo de dinámicas latentes
Aprendizaje de representaciones conscientes de dinámicas federadas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El aprendizaje por refuerzo para la manipulación robótica a menudo se ve limitado por una baja eficiencia de muestreo y dinámicas de entrenamiento inestables, desafíos que se amplifican aún más en entornos federados debido a las restricciones de privacidad de datos y la heterogeneidad de tareas. Para abordar estos problemas, proponemos F-DRL, un marco de aprendizaje de representación consciente de dinámicas federadas que permite a múltiples tareas robóticas aprender colaborativamente representaciones latentes estructuradas sin compartir trayectorias en bruto o parámetros de políticas. El marco combina conocimientos previos de robótica con un modelo de dinámicas latentes condicionado a la acción para aprender incrustaciones de estado y estado-acción de baja dimensión que capturan explícitamente la estructura geométrica y de transición relevante para la tarea. El aprendizaje de representación se realiza localmente en cada cliente, mientras que un servidor central agrega los parámetros del codificador utilizando un esquema ponderado por similitud basado en la geometría latente de segundo orden. Las representaciones aprendidas se utilizan luego como entradas auxiliares congeladas para el aprendizaje por refuerzo sin modelo en etapas posteriores. Evaluamos F-DRL en siete tareas de manipulación robótica heterogéneas del benchmark MetaWorld. Si bien se logra un rendimiento comparable al entrenamiento centralizado y a la línea base federada estándar, F-DRL mejora sustancialmente la estabilidad del entrenamiento en comparación con FedAvg en tareas de manipulación heterogéneas con dinámicas parcialmente compartidas (por ejemplo, Drawer-Open y Window-Open), reduciendo la desviación estándar media entre semillas y el AUC de esta desviación en más del 60%. El método se mantiene neutral en tareas simples y presenta un rendimiento menos consistente en tareas de manipulación ricas en contacto con dinámicas específicas de la tarea, lo que indica tanto los beneficios como los límites prácticos del intercambio de conocimiento a nivel de representación en el aprendizaje robótico federado.

Otros recursos que podrían interesarte

Temas Virtualpro