Yolov8-Poseboost: avances en la detección de puntos clave de pose de robot multimodal
Autores: Wang, Feng; Wang, Gang; Lu, Baoli
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Yolov8-Poseboost: avances en la detección de puntos clave de pose de robot multimodal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Campo
Robótica multimodal
Percepción
Objetivos pequeños
Escenas complejas
YOLOv8-PoseBoost
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
En el campo de la robótica multimodal, lograr una percepción integral y precisa del entorno circundante es un objetivo muy buscado. Sin embargo, los métodos actuales aún tienen limitaciones en la detección de puntos clave de movimiento, especialmente en escenarios que involucran la detección de objetivos pequeños y escenas complejas. Para abordar estos desafíos, proponemos un enfoque innovador conocido como YOLOv8-PoseBoost. Este método introduce el Módulo de Atención de Canales (CBAM) para mejorar el enfoque de la red en objetivos pequeños, aumentando así la sensibilidad a individuos de objetivos pequeños. Además, empleamos múltiples cabezas de detección a diferentes escalas, lo que permite al algoritmo detectar de manera integral individuos de diferentes tamaños en imágenes. La incorporación de canales de conectividad entre niveles cruzados mejora aún más la fusión de características entre redes superficiales y profundas, reduciendo la tasa de detecciones perdidas para individuos de objetivos pequeños. También introducimos una función de pérdida de regresión de caja delimitadora redefinida Scale Invariant Intersection over Union (SIoU), que acelera la convergencia del entrenamiento del modelo y mejora la precisión de detección. A través de una serie de experimentos, validamos el rendimiento sobresaliente de YOLOv8-PoseBoost en la detección de puntos clave de movimiento para objetivos pequeños y escenas complejas. Este enfoque innovador proporciona una solución efectiva para mejorar las capacidades de percepción y ejecución de robots multimodales. Tiene el potencial de impulsar el desarrollo de robots multimodales en diversos dominios de aplicación, con significado tanto teórico como práctico.
Descripción
En el campo de la robótica multimodal, lograr una percepción integral y precisa del entorno circundante es un objetivo muy buscado. Sin embargo, los métodos actuales aún tienen limitaciones en la detección de puntos clave de movimiento, especialmente en escenarios que involucran la detección de objetivos pequeños y escenas complejas. Para abordar estos desafíos, proponemos un enfoque innovador conocido como YOLOv8-PoseBoost. Este método introduce el Módulo de Atención de Canales (CBAM) para mejorar el enfoque de la red en objetivos pequeños, aumentando así la sensibilidad a individuos de objetivos pequeños. Además, empleamos múltiples cabezas de detección a diferentes escalas, lo que permite al algoritmo detectar de manera integral individuos de diferentes tamaños en imágenes. La incorporación de canales de conectividad entre niveles cruzados mejora aún más la fusión de características entre redes superficiales y profundas, reduciendo la tasa de detecciones perdidas para individuos de objetivos pequeños. También introducimos una función de pérdida de regresión de caja delimitadora redefinida Scale Invariant Intersection over Union (SIoU), que acelera la convergencia del entrenamiento del modelo y mejora la precisión de detección. A través de una serie de experimentos, validamos el rendimiento sobresaliente de YOLOv8-PoseBoost en la detección de puntos clave de movimiento para objetivos pequeños y escenas complejas. Este enfoque innovador proporciona una solución efectiva para mejorar las capacidades de percepción y ejecución de robots multimodales. Tiene el potencial de impulsar el desarrollo de robots multimodales en diversos dominios de aplicación, con significado tanto teórico como práctico.