Nrperson: un punto de referencia multimodal no registrado para la detección y localización de personas pequeñas
Autores: Yang, Yi; Han, Xumeng; Wang, Kuiran; Yu, Xuehui; Yu, Wenwen; Wang, Zipeng; Li, Guorong; Han, Zhenjun; Jiao, Jianbin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Nrperson: un punto de referencia multimodal no registrado para la detección y localización de personas pequeñas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección
Localización
Multimodal
NRPerson
Conjunto de datos
Referencias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
En los últimos años, la detección y localización de personas diminutas han recibido una atención significativa debido a sus aplicaciones críticas en varios escenarios de vigilancia y seguridad. Los métodos multi-modales tradicionales dependen predominantemente de pares de imágenes bien registradas, lo que requiere el uso de sensores sofisticados y un esfuerzo manual extenso para el registro, lo que restringe su utilidad práctica en entornos dinámicos del mundo real. Abordando esta brecha, este documento presenta un nuevo conjunto de datos multi-modales no registrados llamado NRPerson, diseñado específicamente para avanzar en el campo de la detección y localización de personas diminutas al adaptarse a las complejidades de escenarios del mundo real. El conjunto de datos NRPerson consta de 8548 pares de imágenes RGB-IR, recopilados y filtrados meticulosamente de 22 secuencias de video, enriquecidos con 889,207 anotaciones de alta calidad que han sido verificadas manualmente por su precisión. Utilizando NRPerson, evaluamos varios modelos líderes de detección y localización en marcos tanto mono-modales como multi-modales no registrados. Además, desarrollamos un conjunto completo de líneas base multi-modales naturales para la innovadora pista no registrada, con el objetivo de mejorar la detección y localización de datos multi-modales no registrados utilizando un enfoque cohesivo y generalizado. Este conjunto de datos está preparado para facilitar avances significativos en la implementación práctica de tecnologías de detección y localización al mitigar la dependencia de requisitos estrictos de registro.
Descripción
En los últimos años, la detección y localización de personas diminutas han recibido una atención significativa debido a sus aplicaciones críticas en varios escenarios de vigilancia y seguridad. Los métodos multi-modales tradicionales dependen predominantemente de pares de imágenes bien registradas, lo que requiere el uso de sensores sofisticados y un esfuerzo manual extenso para el registro, lo que restringe su utilidad práctica en entornos dinámicos del mundo real. Abordando esta brecha, este documento presenta un nuevo conjunto de datos multi-modales no registrados llamado NRPerson, diseñado específicamente para avanzar en el campo de la detección y localización de personas diminutas al adaptarse a las complejidades de escenarios del mundo real. El conjunto de datos NRPerson consta de 8548 pares de imágenes RGB-IR, recopilados y filtrados meticulosamente de 22 secuencias de video, enriquecidos con 889,207 anotaciones de alta calidad que han sido verificadas manualmente por su precisión. Utilizando NRPerson, evaluamos varios modelos líderes de detección y localización en marcos tanto mono-modales como multi-modales no registrados. Además, desarrollamos un conjunto completo de líneas base multi-modales naturales para la innovadora pista no registrada, con el objetivo de mejorar la detección y localización de datos multi-modales no registrados utilizando un enfoque cohesivo y generalizado. Este conjunto de datos está preparado para facilitar avances significativos en la implementación práctica de tecnologías de detección y localización al mitigar la dependencia de requisitos estrictos de registro.