Aprendizaje profundo sin etiquetas para la minería de medios: detección de personas y agrupación de rostros en grandes datos de video
Autores: Abdallah, Mohamed S.; Kim, HyungWon; Ragab, Mohammad E.; Hemayed, Elsayed E.
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Aprendizaje profundo sin etiquetas para la minería de medios: detección de personas y agrupación de rostros en grandes datos de video
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Análisis
Secuencias de fotogramas
Videos de programas de entrevistas
Minería de medios
Producción televisiva
Red neuronal convolucional profunda
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
El análisis de secuencias de fotogramas en videos de programas de entrevistas, necesario para la minería de medios y la producción televisiva, requiere esfuerzos manuales significativos y es un proceso muy laborioso. Dado el gran número de fotogramas de rostros no etiquetados de videos de programas de entrevistas, abordamos y proponemos una solución al problema de reconocimiento y agrupación de rostros. En este documento, proponemos un sistema de minería de medios de televisión basado en un enfoque de red neuronal convolucional profunda, que ha sido entrenado con un método de minimización de pérdida de tripletes. La función principal del sistema propuesto es la indexación y agrupación de datos de video para lograr un análisis efectivo de la producción de medios de individuos en videos de programas de entrevistas e identificar rápidamente a un individuo específico en datos de video en tiempo real. Nuestro sistema utiliza varios conjuntos de datos de rostros de Labeled Faces in the Wild (LFW), que es una colección de imágenes de rostros web no etiquetadas, así como conjuntos de datos de YouTube Faces y rostros de programas de entrevistas. En la tarea de reconocimiento (localización de personas), nuestro sistema logra una F-measure de 0,996 para el conjunto de datos de imágenes de rostros web no etiquetadas y una F-measure de 0,972 para el conjunto de datos de rostros de programas de entrevistas. En la tarea de agrupación, nuestro sistema logra una F-measure de 0,764 y 0,935 para la base de datos de YouTube Faces y el conjunto de datos de LFW, respectivamente, mientras que logra una F-measure de 0,832 para el conjunto de datos de rostros de programas de entrevistas, una mejora del 5,4%, 6,5% y 8,2% sobre los métodos anteriores.
Descripción
El análisis de secuencias de fotogramas en videos de programas de entrevistas, necesario para la minería de medios y la producción televisiva, requiere esfuerzos manuales significativos y es un proceso muy laborioso. Dado el gran número de fotogramas de rostros no etiquetados de videos de programas de entrevistas, abordamos y proponemos una solución al problema de reconocimiento y agrupación de rostros. En este documento, proponemos un sistema de minería de medios de televisión basado en un enfoque de red neuronal convolucional profunda, que ha sido entrenado con un método de minimización de pérdida de tripletes. La función principal del sistema propuesto es la indexación y agrupación de datos de video para lograr un análisis efectivo de la producción de medios de individuos en videos de programas de entrevistas e identificar rápidamente a un individuo específico en datos de video en tiempo real. Nuestro sistema utiliza varios conjuntos de datos de rostros de Labeled Faces in the Wild (LFW), que es una colección de imágenes de rostros web no etiquetadas, así como conjuntos de datos de YouTube Faces y rostros de programas de entrevistas. En la tarea de reconocimiento (localización de personas), nuestro sistema logra una F-measure de 0,996 para el conjunto de datos de imágenes de rostros web no etiquetadas y una F-measure de 0,972 para el conjunto de datos de rostros de programas de entrevistas. En la tarea de agrupación, nuestro sistema logra una F-measure de 0,764 y 0,935 para la base de datos de YouTube Faces y el conjunto de datos de LFW, respectivamente, mientras que logra una F-measure de 0,832 para el conjunto de datos de rostros de programas de entrevistas, una mejora del 5,4%, 6,5% y 8,2% sobre los métodos anteriores.