Modelo de Detección de Objetos Ligero Mejorado en Escenas Complejas: Un Enfoque Mejorado de YOLOv8n
Autores: El Hamdouni, Sohaya; Hdioud, Boutaina; El Fkihi, Sanaa
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Modelo de Detección de Objetos Ligero Mejorado en Escenas Complejas: Un Enfoque Mejorado de YOLOv8n
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Detección de objetos
Algoritmo ligero
YOLOv8n
Detección de objetos pequeños
Módulo C2f-DCNv2
Convolución Fantasma
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de objetos tiene un impacto vital en el análisis e interpretación de escenas visuales. Se utiliza ampliamente en diversos campos, incluyendo la atención médica, la conducción autónoma y la vigilancia de vehículos. Sin embargo, las escenas complejas que contienen objetos pequeños, ocultos y de múltiples escalas presentan dificultades significativas para la detección de objetos. Este documento presenta un algoritmo de detección de objetos ligero, utilizando YOLOv8n como modelo base, para abordar estos problemas. Nuestro método se centra en cuatro pasos. En primer lugar, añadimos una capa para la detección de objetos pequeños para mejorar la capacidad de expresión de características de los objetos pequeños. En segundo lugar, para manejar formas y apariencias complejas, empleamos el módulo C2f-DCNv2. Este módulo integra DCNv2 (Redes de Convolución Deformables v2) avanzadas al sustituir el módulo C2f final en la columna vertebral. En tercer lugar, diseñamos el CBAM, un módulo de atención ligero. Lo integramos en la sección del cuello para abordar las detecciones perdidas. Finalmente, utilizamos Ghost Convolution (GhostConv) como una capa de convolución ligera. Esta alterna con la convolución ordinaria en el cuello. Asegura un buen rendimiento de detección mientras disminuye el número de parámetros. El rendimiento experimental en el conjunto de datos PASCAL VOC demuestra que nuestro enfoque reduce el número de parámetros del modelo en aproximadamente un 9.37%. El mAP@0.5:0.95 aumentó en un 0.9%, el recall (R) aumentó en un 0.8%, el mAP@0.5 aumentó en un 0.3%, y la precisión (P) aumentó en un 0.1% en comparación con el modelo base. Para evaluar mejor el rendimiento de generalización del modelo en escenarios de conducción del mundo real, realizamos experimentos adicionales utilizando el conjunto de datos KITTI. En comparación con el modelo base, nuestro enfoque logró una mejora del 0.8% en mAP@0.5 y del 1.3% en mAP@0.5:0.95. Este resultado indica un rendimiento sólido en condiciones más dinámicas y desafiantes.
Descripción
La detección de objetos tiene un impacto vital en el análisis e interpretación de escenas visuales. Se utiliza ampliamente en diversos campos, incluyendo la atención médica, la conducción autónoma y la vigilancia de vehículos. Sin embargo, las escenas complejas que contienen objetos pequeños, ocultos y de múltiples escalas presentan dificultades significativas para la detección de objetos. Este documento presenta un algoritmo de detección de objetos ligero, utilizando YOLOv8n como modelo base, para abordar estos problemas. Nuestro método se centra en cuatro pasos. En primer lugar, añadimos una capa para la detección de objetos pequeños para mejorar la capacidad de expresión de características de los objetos pequeños. En segundo lugar, para manejar formas y apariencias complejas, empleamos el módulo C2f-DCNv2. Este módulo integra DCNv2 (Redes de Convolución Deformables v2) avanzadas al sustituir el módulo C2f final en la columna vertebral. En tercer lugar, diseñamos el CBAM, un módulo de atención ligero. Lo integramos en la sección del cuello para abordar las detecciones perdidas. Finalmente, utilizamos Ghost Convolution (GhostConv) como una capa de convolución ligera. Esta alterna con la convolución ordinaria en el cuello. Asegura un buen rendimiento de detección mientras disminuye el número de parámetros. El rendimiento experimental en el conjunto de datos PASCAL VOC demuestra que nuestro enfoque reduce el número de parámetros del modelo en aproximadamente un 9.37%. El mAP@0.5:0.95 aumentó en un 0.9%, el recall (R) aumentó en un 0.8%, el mAP@0.5 aumentó en un 0.3%, y la precisión (P) aumentó en un 0.1% en comparación con el modelo base. Para evaluar mejor el rendimiento de generalización del modelo en escenarios de conducción del mundo real, realizamos experimentos adicionales utilizando el conjunto de datos KITTI. En comparación con el modelo base, nuestro enfoque logró una mejora del 0.8% en mAP@0.5 y del 1.3% en mAP@0.5:0.95. Este resultado indica un rendimiento sólido en condiciones más dinámicas y desafiantes.