logo móvil
Contáctanos

Mejorando la búsqueda de descripciones de personas en lenguaje natural desde videos con ajuste fino del modelo de lenguaje y vecino más cercano aproximado

Autores: Yuenyong, Sumeth; Wongpatikaseree, Konlakorn

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Mejorando la búsqueda de descripciones de personas en lenguaje natural desde videos con ajuste fino del modelo de lenguaje y vecino más cercano aproximado


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Cámaras de CCTV
Datos de video
Búsqueda de descripción de personas
Modelo de lenguaje
Ajuste fino no supervisado
Búsqueda de vecinos más cercanos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
Debido a la naturaleza ubicua de las cámaras de CCTV que graban de forma continua, hay una gran cantidad de datos de video que están desestructurados. A menudo, cuando se deben revisar estas grabaciones, es para buscar a una persona específica que coincida con cierta descripción. Actualmente, esto se logra mediante la inspección manual de los videos, lo cual es tanto consumidor de tiempo como intensivo en mano de obra. Si bien la búsqueda de descripciones de personas no es un tema nuevo, en este trabajo hicimos dos contribuciones. Primero, mejoramos el estado del arte existente proponiendo un ajuste fino no supervisado en el modelo de lenguaje que forma una parte principal de la rama de texto de los modelos de búsqueda de descripciones de personas. Esto condujo a valores de recuperación más altos en el conjunto de datos estándar. La segunda contribución es que diseñamos un pipeline completo desde archivos de video hasta objetos de búsqueda rápidamente accesibles. Debido al uso de una búsqueda de vecino más cercano aproximada y algunas optimizaciones de modelo, se puede realizar una búsqueda de descripción de personas de manera que el resultado esté disponible inmediatamente al implementarse en una PC estándar sin GPU, lo que permite una búsqueda interactiva. Demostramos la efectividad del sistema en nuevos datos y mostramos que la mayoría de las personas en los videos pueden ser descubiertas con éxito mediante la búsqueda.

Otros recursos que podrían interesarte

Temas Virtualpro