Aprendizaje profundo sin etiquetas para la minería de medios: detección de personas y agrupación de rostros en grandes datos de video

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje profundo sin etiquetas para la minería de medios: detección de personas y agrupación de rostros en grandes datos de video

Autores: Abdallah, Mohamed S.; Kim, HyungWon; Ragab, Mohammad E.; Hemayed, Elsayed E.

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Aprendizaje profundo sin etiquetas para la minería de medios: detección de personas y agrupación de rostros en grandes datos de video

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Análisis

Secuencias de fotogramas

Videos de programas de entrevistas

Minería de medios

Producción televisiva

Red neuronal convolucional profunda

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones

El análisis de secuencias de fotogramas en videos de programas de entrevistas, necesario para la minería de medios y la producción televisiva, requiere esfuerzos manuales significativos y es un proceso muy laborioso. Dado el gran número de fotogramas de rostros no etiquetados de videos de programas de entrevistas, abordamos y proponemos una solución al problema de reconocimiento y agrupación de rostros. En este documento, proponemos un sistema de minería de medios de televisión basado en un enfoque de red neuronal convolucional profunda, que ha sido entrenado con un método de minimización de pérdida de tripletes. La función principal del sistema propuesto es la indexación y agrupación de datos de video para lograr un análisis efectivo de la producción de medios de individuos en videos de programas de entrevistas e identificar rápidamente a un individuo específico en datos de video en tiempo real. Nuestro sistema utiliza varios conjuntos de datos de rostros de Labeled Faces in the Wild (LFW), que es una colección de imágenes de rostros web no etiquetadas, así como conjuntos de datos de YouTube Faces y rostros de programas de entrevistas. En la tarea de reconocimiento (localización de personas), nuestro sistema logra una F-measure de 0,996 para el conjunto de datos de imágenes de rostros web no etiquetadas y una F-measure de 0,972 para el conjunto de datos de rostros de programas de entrevistas. En la tarea de agrupación, nuestro sistema logra una F-measure de 0,764 y 0,935 para la base de datos de YouTube Faces y el conjunto de datos de LFW, respectivamente, mientras que logra una F-measure de 0,832 para el conjunto de datos de rostros de programas de entrevistas, una mejora del 5,4%, 6,5% y 8,2% sobre los métodos anteriores.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro