Mejorando el Modelo para la Detección de Personas en Secuencias de Imágenes Aéreas Usando el Vector de Desplazamiento: Un Escenario de Búsqueda y Rescate
Autores: Kundid Vasi, Mirela; Papi, Vladan
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Mejorando el Modelo para la Detección de Personas en Secuencias de Imágenes Aéreas Usando el Vector de Desplazamiento: Un Escenario de Búsqueda y Rescate
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Resultados
Detección de personas
Aprendizaje profundo
Imágenes aéreas
UAVs
Valor de precisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los resultados recientes en la detección de personas utilizando métodos de aprendizaje profundo aplicados a imágenes aéreas recopiladas por Vehículos Aéreos No Tripulados (VANT) han demostrado la aplicabilidad de este enfoque en escenarios como las operaciones de Búsqueda y Rescate (SAR). En este artículo, se presenta la continuación de nuestra investigación anterior. El objetivo principal es mejorar aún más los resultados de detección, especialmente en términos de reducir el número de detecciones falsas positivas y, en consecuencia, aumentar el valor de precisión. Presentamos un nuevo enfoque que, como entrada a la arquitectura de red neuronal multimodal, utiliza secuencias de imágenes consecutivas en lugar de solo una imagen estática. Dado que las imágenes sucesivas se superponen, el mismo objeto de interés necesita ser detectado en más de una imagen. Se calculó la correlación entre imágenes sucesivas, y las regiones detectadas en una imagen se tradujeron a otras imágenes basadas en el vector de desplazamiento. La suposición es que un objeto detectado en más de una imagen tiene una mayor probabilidad de ser una detección verdadera positiva porque es poco probable que el modelo de detección encuentre las mismas detecciones falsas positivas en múltiples imágenes. Con base en esta información, se proponen tres algoritmos diferentes para rechazar detecciones y agregar detecciones de una imagen a otras imágenes en la secuencia. Todos ellos lograron un valor de precisión de alrededor del 80%, lo que representa un aumento de casi el 20% en comparación con los métodos actuales de vanguardia.
Descripción
Los resultados recientes en la detección de personas utilizando métodos de aprendizaje profundo aplicados a imágenes aéreas recopiladas por Vehículos Aéreos No Tripulados (VANT) han demostrado la aplicabilidad de este enfoque en escenarios como las operaciones de Búsqueda y Rescate (SAR). En este artículo, se presenta la continuación de nuestra investigación anterior. El objetivo principal es mejorar aún más los resultados de detección, especialmente en términos de reducir el número de detecciones falsas positivas y, en consecuencia, aumentar el valor de precisión. Presentamos un nuevo enfoque que, como entrada a la arquitectura de red neuronal multimodal, utiliza secuencias de imágenes consecutivas en lugar de solo una imagen estática. Dado que las imágenes sucesivas se superponen, el mismo objeto de interés necesita ser detectado en más de una imagen. Se calculó la correlación entre imágenes sucesivas, y las regiones detectadas en una imagen se tradujeron a otras imágenes basadas en el vector de desplazamiento. La suposición es que un objeto detectado en más de una imagen tiene una mayor probabilidad de ser una detección verdadera positiva porque es poco probable que el modelo de detección encuentre las mismas detecciones falsas positivas en múltiples imágenes. Con base en esta información, se proponen tres algoritmos diferentes para rechazar detecciones y agregar detecciones de una imagen a otras imágenes en la secuencia. Todos ellos lograron un valor de precisión de alrededor del 80%, lo que representa un aumento de casi el 20% en comparación con los métodos actuales de vanguardia.