Planificación de Movimiento Conformante Integrando Habilidad Humana para un Brazo Robótico Recolectando Racimos de Tomate Basado en DDPG Mejorado
Autores: Zhang, Yifan; Li, Yajun; Feng, Qingchun; Sun, Jiahui; Peng, Chuanlang; Gao, Liangzheng; Chen, Liping
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Planificación de Movimiento Conformante Integrando Habilidad Humana para un Brazo Robótico Recolectando Racimos de Tomate Basado en DDPG Mejorado
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Botánica
Palabras clave
Integridad de la fruta
Cosecha
Transferencia de habilidades entre humanos y robots
Gradiente de Política Determinista Profunda
Recolección de racimos de tomate
Brazo robótico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 8
Citaciones: Sin citaciones
La manipulación diestro y la colocación gradual son cruciales para preservar la integridad de la fruta durante la cosecha. Abordando las limitaciones de los métodos convencionales de planificación de trayectorias en el aprendizaje de habilidades manuales compatibles, proponemos un método novedoso para la recolección de racimos de tomate que integra la transferencia de habilidades humano-robot con el Gradiente de Política Determinista Profunda (DDPG). En nuestro método, un demostrador guió manualmente el brazo robótico utilizando un mecanismo de recolección de tomates existente, con trayectorias espaciales registradas como caminos de demostración. Luego desarrollamos un modelo DDPG-Z mejorado que incorpora la repetición de habilidades humanas para el preentrenamiento, la pérdida de regresión de recompensas de expertos para estabilizar el preentrenamiento y retornos de longitud de paso dinámicos para equilibrar las recompensas a corto y largo plazo. Posteriormente, se entrenó al agente para minimizar las desviaciones de los puntos clave entre los caminos de demostración y los caminos reales, aproximando efectivamente las operaciones humanas. En un entorno de simulación altamente realista, nuestro método logró una mejora del 25% en la velocidad de convergencia, un aumento del 10.3% en la recompensa posterior a la convergencia y un aumento del 51.3% en la precisión de destino en comparación con el caso sin las demostraciones, mientras que modelos clásicos como DDPG, SAC (Actor-Crítico Suave) y TD3 (Gradiente de Política Determinista Profunda Doble Retrasada) no lograron converger dentro de los episodios prescritos. Este trabajo proporciona valiosas ideas para mejorar el rendimiento operativo compatible de los robots agrícolas.
Descripción
La manipulación diestro y la colocación gradual son cruciales para preservar la integridad de la fruta durante la cosecha. Abordando las limitaciones de los métodos convencionales de planificación de trayectorias en el aprendizaje de habilidades manuales compatibles, proponemos un método novedoso para la recolección de racimos de tomate que integra la transferencia de habilidades humano-robot con el Gradiente de Política Determinista Profunda (DDPG). En nuestro método, un demostrador guió manualmente el brazo robótico utilizando un mecanismo de recolección de tomates existente, con trayectorias espaciales registradas como caminos de demostración. Luego desarrollamos un modelo DDPG-Z mejorado que incorpora la repetición de habilidades humanas para el preentrenamiento, la pérdida de regresión de recompensas de expertos para estabilizar el preentrenamiento y retornos de longitud de paso dinámicos para equilibrar las recompensas a corto y largo plazo. Posteriormente, se entrenó al agente para minimizar las desviaciones de los puntos clave entre los caminos de demostración y los caminos reales, aproximando efectivamente las operaciones humanas. En un entorno de simulación altamente realista, nuestro método logró una mejora del 25% en la velocidad de convergencia, un aumento del 10.3% en la recompensa posterior a la convergencia y un aumento del 51.3% en la precisión de destino en comparación con el caso sin las demostraciones, mientras que modelos clásicos como DDPG, SAC (Actor-Crítico Suave) y TD3 (Gradiente de Política Determinista Profunda Doble Retrasada) no lograron converger dentro de los episodios prescritos. Este trabajo proporciona valiosas ideas para mejorar el rendimiento operativo compatible de los robots agrícolas.