Mejorando la búsqueda de descripciones de personas en lenguaje natural desde videos con ajuste fino del modelo de lenguaje y vecino más cercano aproximado
Autores: Yuenyong, Sumeth; Wongpatikaseree, Konlakorn
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Mejorando la búsqueda de descripciones de personas en lenguaje natural desde videos con ajuste fino del modelo de lenguaje y vecino más cercano aproximado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Cámaras de CCTV
Datos de video
Búsqueda de descripción de personas
Modelo de lenguaje
Ajuste fino no supervisado
Búsqueda de vecinos más cercanos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
Debido a la naturaleza ubicua de las cámaras de CCTV que graban de forma continua, hay una gran cantidad de datos de video que están desestructurados. A menudo, cuando se deben revisar estas grabaciones, es para buscar a una persona específica que coincida con cierta descripción. Actualmente, esto se logra mediante la inspección manual de los videos, lo cual es tanto consumidor de tiempo como intensivo en mano de obra. Si bien la búsqueda de descripciones de personas no es un tema nuevo, en este trabajo hicimos dos contribuciones. Primero, mejoramos el estado del arte existente proponiendo un ajuste fino no supervisado en el modelo de lenguaje que forma una parte principal de la rama de texto de los modelos de búsqueda de descripciones de personas. Esto condujo a valores de recuperación más altos en el conjunto de datos estándar. La segunda contribución es que diseñamos un pipeline completo desde archivos de video hasta objetos de búsqueda rápidamente accesibles. Debido al uso de una búsqueda de vecino más cercano aproximada y algunas optimizaciones de modelo, se puede realizar una búsqueda de descripción de personas de manera que el resultado esté disponible inmediatamente al implementarse en una PC estándar sin GPU, lo que permite una búsqueda interactiva. Demostramos la efectividad del sistema en nuevos datos y mostramos que la mayoría de las personas en los videos pueden ser descubiertas con éxito mediante la búsqueda.
Descripción
Debido a la naturaleza ubicua de las cámaras de CCTV que graban de forma continua, hay una gran cantidad de datos de video que están desestructurados. A menudo, cuando se deben revisar estas grabaciones, es para buscar a una persona específica que coincida con cierta descripción. Actualmente, esto se logra mediante la inspección manual de los videos, lo cual es tanto consumidor de tiempo como intensivo en mano de obra. Si bien la búsqueda de descripciones de personas no es un tema nuevo, en este trabajo hicimos dos contribuciones. Primero, mejoramos el estado del arte existente proponiendo un ajuste fino no supervisado en el modelo de lenguaje que forma una parte principal de la rama de texto de los modelos de búsqueda de descripciones de personas. Esto condujo a valores de recuperación más altos en el conjunto de datos estándar. La segunda contribución es que diseñamos un pipeline completo desde archivos de video hasta objetos de búsqueda rápidamente accesibles. Debido al uso de una búsqueda de vecino más cercano aproximada y algunas optimizaciones de modelo, se puede realizar una búsqueda de descripción de personas de manera que el resultado esté disponible inmediatamente al implementarse en una PC estándar sin GPU, lo que permite una búsqueda interactiva. Demostramos la efectividad del sistema en nuevos datos y mostramos que la mayoría de las personas en los videos pueden ser descubiertas con éxito mediante la búsqueda.