logo móvil
Contáctanos

Interactiva eliminación del objeto de micrófono en imágenes faciales

Autores: Khan, Muhammad Kamran Javed; Ud Din, Nizam; Bae, Seho; Yi, Juneho

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Interactiva eliminación del objeto de micrófono en imágenes faciales


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Eliminación de objetos
Imágenes faciales
MRGAN
Red Generativa Antagónica
Inpainter
Refinador

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Eliminar un objeto específico de una imagen y reemplazar el agujero dejado atrás con fondos visualmente plausibles es una tarea muy intrigante. Aunque los métodos recientes de eliminación de objetos basados en aprendizaje profundo han mostrado resultados prometedores en esta tarea para algunas escenas estructuradas, ninguno de ellos ha abordado el problema de la eliminación de objetos en imágenes faciales. El objetivo de este trabajo es eliminar el objeto del micrófono en imágenes faciales y rellenar el agujero con la correcta semántica facial y detalles finos. Para hacer nuestra solución prácticamente útil, presentamos un método interactivo llamado MRGAN, donde el usuario proporciona aproximadamente la región del micrófono. Para rellenar el agujero, empleamos un enfoque de traducción de imagen a imagen basado en Redes Generativas Adversarias. Dividimos el problema en dos etapas: el inpainter estima una predicción gruesa rellenando aproximadamente la región del micrófono seguido por el refinador que produce detalles finos debajo de la región del micrófono. Unimos la pérdida perceptual, la pérdida de reconstrucción y la pérdida adversarial como función de pérdida conjunta para generar un rostro realista y una estructura similar a la verdad de referencia. Dado que no existen pares de imágenes faciales con y sin micrófono, hemos entrenado nuestro método en un conjunto de datos de micrófono generado sintéticamente a partir de imágenes faciales de CelebA y evaluado en imágenes reales de micrófono. Nuestra extensa evaluación muestra que MRGAN funciona mejor que los métodos de manipulación de imágenes de última generación en imágenes reales de micrófono, aunque solo entrenamos nuestro método utilizando el conjunto de datos sintético creado. Además, proporcionamos estudios de ablación para la función de pérdida integrada y para diferentes disposiciones de redes.

Otros recursos que podrían interesarte

Temas Virtualpro