Temporally coherente video de caricaturización para generación de escenarios de animación
Autores: Rayo, Gustavo; Tous, Ruben
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Temporally coherente video de caricaturización para generación de escenarios de animación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transformación automática
Videos de fondo cortos
Estilo visualmente agradable
Películas animadas
Videojuegos
Creación de contenido
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
La transformación automática de videos cortos de fondo de escenarios reales en otras formas con un estilo visual agradable, como los utilizados en dibujos animados, tiene aplicaciones en varios dominios. Estos incluyen películas animadas, videojuegos, anuncios y muchas otras áreas que involucran la creación de contenido visual. Un método o herramienta que pueda realizar esta tarea inspiraría, facilitaría y agilizaría el trabajo de artistas y personas que producen este tipo de contenido. Este trabajo propone un método que integra múltiples componentes para traducir videos cortos de fondo en otras formas que contienen un estilo particular. Aplicamos un modelo de difusión latente afinado con una configuración de imagen a imagen, condicionado con los bordes de la imagen (calculados con detección de bordes anidados de manera holística) y con indicaciones generadas por CLIP para traducir los fotogramas clave de un video fuente, asegurando la preservación del contenido. Para mantener la coherencia temporal, los fotogramas clave se traducen en cuadrículas y el estilo se interpola con un algoritmo de propagación de estilo basado en ejemplos. Evaluamos cuantitativamente la preservación del contenido y la coherencia temporal utilizando métricas basadas en CLIP en un nuevo conjunto de datos de 20 videos traducidos en tres estilos distintos.
Descripción
La transformación automática de videos cortos de fondo de escenarios reales en otras formas con un estilo visual agradable, como los utilizados en dibujos animados, tiene aplicaciones en varios dominios. Estos incluyen películas animadas, videojuegos, anuncios y muchas otras áreas que involucran la creación de contenido visual. Un método o herramienta que pueda realizar esta tarea inspiraría, facilitaría y agilizaría el trabajo de artistas y personas que producen este tipo de contenido. Este trabajo propone un método que integra múltiples componentes para traducir videos cortos de fondo en otras formas que contienen un estilo particular. Aplicamos un modelo de difusión latente afinado con una configuración de imagen a imagen, condicionado con los bordes de la imagen (calculados con detección de bordes anidados de manera holística) y con indicaciones generadas por CLIP para traducir los fotogramas clave de un video fuente, asegurando la preservación del contenido. Para mantener la coherencia temporal, los fotogramas clave se traducen en cuadrículas y el estilo se interpola con un algoritmo de propagación de estilo basado en ejemplos. Evaluamos cuantitativamente la preservación del contenido y la coherencia temporal utilizando métricas basadas en CLIP en un nuevo conjunto de datos de 20 videos traducidos en tres estilos distintos.