logo móvil
Contáctanos

De Píxeles a Movimiento: Un Análisis Sistemático de Técnicas de Síntesis de Video Basadas en Traducción

Autores: Saha, Pratim; Zhang, Chengcui

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

De Píxeles a Movimiento: Un Análisis Sistemático de Técnicas de Síntesis de Video Basadas en Traducción


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Síntesis de video basada en traducción
Metodologías
Consistencia temporal
Adaptación entre dominios
Métricas de evaluación
Eficiencia computacional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La síntesis de video basada en traducción (TVS) ha surgido como una tecnología transformadora que permite la manipulación y generación sofisticada de contenido visual dinámico. Esta encuesta integral examina sistemáticamente la evolución de las metodologías de TVS, abarcando tanto enfoques de traducción de imagen a video (I2V) como de video a video (V2V). Analizamos la progresión desde técnicas de animación facial específicas de dominio hasta marcos basados en difusión generalizables, investigando innovaciones arquitectónicas que abordan desafíos fundamentales en la coherencia temporal y la adaptación entre dominios. Nuestra investigación categoriza los métodos V2V en enfoques emparejados, incluidos marcos basados en GAN condicionales y síntesis consistente con el mundo, y enfoques no emparejados organizados en cinco paradigmas distintos: procesamiento basado en GAN 3D, mecanismos de restricción temporal, integración de flujo óptico, aprendizaje de separación de contenido y movimiento, y marcos extendidos de imagen a imagen. A través de una evaluación exhaustiva en diversos conjuntos de datos, analizamos el rendimiento utilizando métricas de calidad espacial, medidas de coherencia temporal e indicadores de preservación semántica. Presentamos un análisis cualitativo comparando métodos evaluados en puntos de referencia idénticos, revelando compromisos críticos entre calidad visual, coherencia temporal y eficiencia computacional. Persisten desafíos actuales en la coherencia temporal a largo plazo, con direcciones de investigación futura identificadas en la generación de video a largo plazo, síntesis audio-visual para un realismo mejorado y desarrollo de métricas de evaluación integrales que capturen mejor la calidad perceptual humana. Esta encuesta proporciona una comprensión estructurada de los fundamentos metodológicos, marcos de evaluación y oportunidades de investigación futura en TVS. Identificamos caminos para avanzar en la generalización entre dominios, mejorar la eficiencia computacional y desarrollar métricas de evaluación mejoradas para el despliegue práctico, contribuyendo a una comprensión más amplia de las tecnologías de síntesis de video temporal.

Otros recursos que podrían interesarte

Temas Virtualpro