Planificación de Movimiento Conformante Integrando Habilidad Humana para un Brazo Robótico Recolectando Racimos de Tomate Basado en DDPG Mejorado

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Planificación de Movimiento Conformante Integrando Habilidad Humana para un Brazo Robótico Recolectando Racimos de Tomate Basado en DDPG Mejorado

Autores: Zhang, Yifan; Li, Yajun; Feng, Qingchun; Sun, Jiahui; Peng, Chuanlang; Gao, Liangzheng; Chen, Liping

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Planificación de Movimiento Conformante Integrando Habilidad Humana para un Brazo Robótico Recolectando Racimos de Tomate Basado en DDPG Mejorado

Categoría

Ciencias Agrícolas y Biológicas

Subcategoría

Botánica

Palabras clave

Integridad de la fruta

Cosecha

Transferencia de habilidades entre humanos y robots

Gradiente de Política Determinista Profunda

Recolección de racimos de tomate

Brazo robótico

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 8

Citaciones: Sin citaciones

La manipulación diestro y la colocación gradual son cruciales para preservar la integridad de la fruta durante la cosecha. Abordando las limitaciones de los métodos convencionales de planificación de trayectorias en el aprendizaje de habilidades manuales compatibles, proponemos un método novedoso para la recolección de racimos de tomate que integra la transferencia de habilidades humano-robot con el Gradiente de Política Determinista Profunda (DDPG). En nuestro método, un demostrador guió manualmente el brazo robótico utilizando un mecanismo de recolección de tomates existente, con trayectorias espaciales registradas como caminos de demostración. Luego desarrollamos un modelo DDPG-Z mejorado que incorpora la repetición de habilidades humanas para el preentrenamiento, la pérdida de regresión de recompensas de expertos para estabilizar el preentrenamiento y retornos de longitud de paso dinámicos para equilibrar las recompensas a corto y largo plazo. Posteriormente, se entrenó al agente para minimizar las desviaciones de los puntos clave entre los caminos de demostración y los caminos reales, aproximando efectivamente las operaciones humanas. En un entorno de simulación altamente realista, nuestro método logró una mejora del 25% en la velocidad de convergencia, un aumento del 10.3% en la recompensa posterior a la convergencia y un aumento del 51.3% en la precisión de destino en comparación con el caso sin las demostraciones, mientras que modelos clásicos como DDPG, SAC (Actor-Crítico Suave) y TD3 (Gradiente de Política Determinista Profunda Doble Retrasada) no lograron converger dentro de los episodios prescritos. Este trabajo proporciona valiosas ideas para mejorar el rendimiento operativo compatible de los robots agrícolas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro