De Píxeles a Movimiento: Un Análisis Sistemático de Técnicas de Síntesis de Video Basadas en Traducción
Autores: Saha, Pratim; Zhang, Chengcui
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
De Píxeles a Movimiento: Un Análisis Sistemático de Técnicas de Síntesis de Video Basadas en Traducción
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Síntesis de video basada en traducción
Metodologías
Consistencia temporal
Adaptación entre dominios
Métricas de evaluación
Eficiencia computacional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La síntesis de video basada en traducción (TVS) ha surgido como una tecnología transformadora que permite la manipulación y generación sofisticada de contenido visual dinámico. Esta encuesta integral examina sistemáticamente la evolución de las metodologías de TVS, abarcando tanto enfoques de traducción de imagen a video (I2V) como de video a video (V2V). Analizamos la progresión desde técnicas de animación facial específicas de dominio hasta marcos basados en difusión generalizables, investigando innovaciones arquitectónicas que abordan desafíos fundamentales en la coherencia temporal y la adaptación entre dominios. Nuestra investigación categoriza los métodos V2V en enfoques emparejados, incluidos marcos basados en GAN condicionales y síntesis consistente con el mundo, y enfoques no emparejados organizados en cinco paradigmas distintos: procesamiento basado en GAN 3D, mecanismos de restricción temporal, integración de flujo óptico, aprendizaje de separación de contenido y movimiento, y marcos extendidos de imagen a imagen. A través de una evaluación exhaustiva en diversos conjuntos de datos, analizamos el rendimiento utilizando métricas de calidad espacial, medidas de coherencia temporal e indicadores de preservación semántica. Presentamos un análisis cualitativo comparando métodos evaluados en puntos de referencia idénticos, revelando compromisos críticos entre calidad visual, coherencia temporal y eficiencia computacional. Persisten desafíos actuales en la coherencia temporal a largo plazo, con direcciones de investigación futura identificadas en la generación de video a largo plazo, síntesis audio-visual para un realismo mejorado y desarrollo de métricas de evaluación integrales que capturen mejor la calidad perceptual humana. Esta encuesta proporciona una comprensión estructurada de los fundamentos metodológicos, marcos de evaluación y oportunidades de investigación futura en TVS. Identificamos caminos para avanzar en la generalización entre dominios, mejorar la eficiencia computacional y desarrollar métricas de evaluación mejoradas para el despliegue práctico, contribuyendo a una comprensión más amplia de las tecnologías de síntesis de video temporal.
Descripción
La síntesis de video basada en traducción (TVS) ha surgido como una tecnología transformadora que permite la manipulación y generación sofisticada de contenido visual dinámico. Esta encuesta integral examina sistemáticamente la evolución de las metodologías de TVS, abarcando tanto enfoques de traducción de imagen a video (I2V) como de video a video (V2V). Analizamos la progresión desde técnicas de animación facial específicas de dominio hasta marcos basados en difusión generalizables, investigando innovaciones arquitectónicas que abordan desafíos fundamentales en la coherencia temporal y la adaptación entre dominios. Nuestra investigación categoriza los métodos V2V en enfoques emparejados, incluidos marcos basados en GAN condicionales y síntesis consistente con el mundo, y enfoques no emparejados organizados en cinco paradigmas distintos: procesamiento basado en GAN 3D, mecanismos de restricción temporal, integración de flujo óptico, aprendizaje de separación de contenido y movimiento, y marcos extendidos de imagen a imagen. A través de una evaluación exhaustiva en diversos conjuntos de datos, analizamos el rendimiento utilizando métricas de calidad espacial, medidas de coherencia temporal e indicadores de preservación semántica. Presentamos un análisis cualitativo comparando métodos evaluados en puntos de referencia idénticos, revelando compromisos críticos entre calidad visual, coherencia temporal y eficiencia computacional. Persisten desafíos actuales en la coherencia temporal a largo plazo, con direcciones de investigación futura identificadas en la generación de video a largo plazo, síntesis audio-visual para un realismo mejorado y desarrollo de métricas de evaluación integrales que capturen mejor la calidad perceptual humana. Esta encuesta proporciona una comprensión estructurada de los fundamentos metodológicos, marcos de evaluación y oportunidades de investigación futura en TVS. Identificamos caminos para avanzar en la generalización entre dominios, mejorar la eficiencia computacional y desarrollar métricas de evaluación mejoradas para el despliegue práctico, contribuyendo a una comprensión más amplia de las tecnologías de síntesis de video temporal.