logo móvil
Contáctanos

Planificación de Movimiento Conformante Integrando Habilidad Humana para un Brazo Robótico Recolectando Racimos de Tomate Basado en DDPG Mejorado

Autores: Zhang, Yifan; Li, Yajun; Feng, Qingchun; Sun, Jiahui; Peng, Chuanlang; Gao, Liangzheng; Chen, Liping

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Planificación de Movimiento Conformante Integrando Habilidad Humana para un Brazo Robótico Recolectando Racimos de Tomate Basado en DDPG Mejorado


Categoría

Ciencias Agrícolas y Biológicas

Subcategoría

Botánica

Palabras clave

Integridad de la fruta
Cosecha
Transferencia de habilidades entre humanos y robots
Gradiente de Política Determinista Profunda
Recolección de racimos de tomate
Brazo robótico

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 8

Citaciones: Sin citaciones


Descripción
La manipulación diestro y la colocación gradual son cruciales para preservar la integridad de la fruta durante la cosecha. Abordando las limitaciones de los métodos convencionales de planificación de trayectorias en el aprendizaje de habilidades manuales compatibles, proponemos un método novedoso para la recolección de racimos de tomate que integra la transferencia de habilidades humano-robot con el Gradiente de Política Determinista Profunda (DDPG). En nuestro método, un demostrador guió manualmente el brazo robótico utilizando un mecanismo de recolección de tomates existente, con trayectorias espaciales registradas como caminos de demostración. Luego desarrollamos un modelo DDPG-Z mejorado que incorpora la repetición de habilidades humanas para el preentrenamiento, la pérdida de regresión de recompensas de expertos para estabilizar el preentrenamiento y retornos de longitud de paso dinámicos para equilibrar las recompensas a corto y largo plazo. Posteriormente, se entrenó al agente para minimizar las desviaciones de los puntos clave entre los caminos de demostración y los caminos reales, aproximando efectivamente las operaciones humanas. En un entorno de simulación altamente realista, nuestro método logró una mejora del 25% en la velocidad de convergencia, un aumento del 10.3% en la recompensa posterior a la convergencia y un aumento del 51.3% en la precisión de destino en comparación con el caso sin las demostraciones, mientras que modelos clásicos como DDPG, SAC (Actor-Crítico Suave) y TD3 (Gradiente de Política Determinista Profunda Doble Retrasada) no lograron converger dentro de los episodios prescritos. Este trabajo proporciona valiosas ideas para mejorar el rendimiento operativo compatible de los robots agrícolas.

Otros recursos que podrían interesarte

Temas Virtualpro