logo móvil
Contáctanos

Aprendizaje profundo sin etiquetas para la minería de medios: detección de personas y agrupación de rostros en grandes datos de video

Autores: Abdallah, Mohamed S.; Kim, HyungWon; Ragab, Mohammad E.; Hemayed, Elsayed E.

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Aprendizaje profundo sin etiquetas para la minería de medios: detección de personas y agrupación de rostros en grandes datos de video


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Análisis
Secuencias de fotogramas
Videos de programas de entrevistas
Minería de medios
Producción televisiva
Red neuronal convolucional profunda

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
El análisis de secuencias de fotogramas en videos de programas de entrevistas, necesario para la minería de medios y la producción televisiva, requiere esfuerzos manuales significativos y es un proceso muy laborioso. Dado el gran número de fotogramas de rostros no etiquetados de videos de programas de entrevistas, abordamos y proponemos una solución al problema de reconocimiento y agrupación de rostros. En este documento, proponemos un sistema de minería de medios de televisión basado en un enfoque de red neuronal convolucional profunda, que ha sido entrenado con un método de minimización de pérdida de tripletes. La función principal del sistema propuesto es la indexación y agrupación de datos de video para lograr un análisis efectivo de la producción de medios de individuos en videos de programas de entrevistas e identificar rápidamente a un individuo específico en datos de video en tiempo real. Nuestro sistema utiliza varios conjuntos de datos de rostros de Labeled Faces in the Wild (LFW), que es una colección de imágenes de rostros web no etiquetadas, así como conjuntos de datos de YouTube Faces y rostros de programas de entrevistas. En la tarea de reconocimiento (localización de personas), nuestro sistema logra una F-measure de 0,996 para el conjunto de datos de imágenes de rostros web no etiquetadas y una F-measure de 0,972 para el conjunto de datos de rostros de programas de entrevistas. En la tarea de agrupación, nuestro sistema logra una F-measure de 0,764 y 0,935 para la base de datos de YouTube Faces y el conjunto de datos de LFW, respectivamente, mientras que logra una F-measure de 0,832 para el conjunto de datos de rostros de programas de entrevistas, una mejora del 5,4%, 6,5% y 8,2% sobre los métodos anteriores.

Otros recursos que podrían interesarte

Temas Virtualpro