Drefnet: red gan de características mejoradas residuales profundas para mejorar la calidad de vídeo comprimido vvc
Autores: Das, Tanni; Choi, Kiho
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Drefnet: red gan de características mejoradas residuales profundas para mejorar la calidad de vídeo comprimido vvc
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Contenido de video
Códecs
Eficiencia de compresión
Artefactos
Post-procesamiento
Red Generativa Adversarial de Características Mejoradas Residuales Profundas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
En los últimos años, el uso de contenido de video ha experimentado un crecimiento exponencial. El rápido crecimiento del contenido de video ha llevado a una mayor dependencia de varios códecs de video para una compresión y transmisión eficientes. Sin embargo, varios desafíos están asociados con códecs como H.265/High Efficiency Video Coding y H.266/Versatile Video Coding (VVC) que pueden afectar la calidad y el rendimiento del video. Un desafío significativo es el equilibrio entre la eficiencia de compresión y la calidad visual. Si bien los códecs avanzados pueden reducir significativamente el tamaño de los archivos, introducen artefactos como el bloqueo, el desenfoque y la distorsión del color, especialmente en escenas de alta movilidad. Diferentes herramientas de compresión en los códecs de video modernos son vitales para minimizar los artefactos que surgen durante los procesos de codificación y decodificación. Si bien los algoritmos avanzados utilizados por estos códecs modernos pueden disminuir eficazmente el tamaño de los archivos y mejorar la eficiencia de compresión, a menudo les resulta difícil eliminar completamente los artefactos. Al utilizar técnicas avanzadas como el postprocesamiento después de la decodificación inicial, este método puede mejorar significativamente la claridad visual y restaurar detalles que pueden haber sido comprometidos durante la compresión. En este documento, presentamos una Red Generativa Antagónica de Características Mejoradas Residuales Profundas como un método de postprocesamiento destinado a mejorar aún más la calidad de los fotogramas reconstruidos del códec avanzado VVC. Al utilizar los beneficios de los Bloques Residuales Profundos y los Bloques de Características Mejoradas, la red generadora tiene como objetivo hacer que el fotograma reconstruido sea lo más similar posible al fotograma original. La red discriminadora, un elemento crucial de nuestro método propuesto, desempeña un papel vital al guiar al generador evaluando la autenticidad de los fotogramas generados. Al distinguir entre fotogramas falsos y originales, el discriminador permite que el generador mejore la calidad de su salida. Este mecanismo de retroalimentación asegura que el generador aprenda a crear fotogramas más realistas, mejorando en última instancia el rendimiento general del modelo. El método propuesto muestra un aumento significativo para las configuraciones de Acceso Aleatorio (RA) y Todo Intra (AI) mientras mejora la Evaluación de Fusión Multimétodo de Video (VMAF) y la Medida de Índice de Similitud Estructural Multiescala (MS-SSIM). Considerando VMAF, nuestro método propuesto puede obtener un aumento de 13.05% y 11.09% en la Tasa de Delta de Bjøntegaard (BD-Rate) para la configuración RA y AI, respectivamente. En el caso del componente de luminancia MS-SSIM, las configuraciones RA y AI obtienen, respectivamente, un aumento de 5.00% y 5.87% en la Tasa de Delta de Bjøntegaard después de emplear nuestra red propuesta sugerida.
Descripción
En los últimos años, el uso de contenido de video ha experimentado un crecimiento exponencial. El rápido crecimiento del contenido de video ha llevado a una mayor dependencia de varios códecs de video para una compresión y transmisión eficientes. Sin embargo, varios desafíos están asociados con códecs como H.265/High Efficiency Video Coding y H.266/Versatile Video Coding (VVC) que pueden afectar la calidad y el rendimiento del video. Un desafío significativo es el equilibrio entre la eficiencia de compresión y la calidad visual. Si bien los códecs avanzados pueden reducir significativamente el tamaño de los archivos, introducen artefactos como el bloqueo, el desenfoque y la distorsión del color, especialmente en escenas de alta movilidad. Diferentes herramientas de compresión en los códecs de video modernos son vitales para minimizar los artefactos que surgen durante los procesos de codificación y decodificación. Si bien los algoritmos avanzados utilizados por estos códecs modernos pueden disminuir eficazmente el tamaño de los archivos y mejorar la eficiencia de compresión, a menudo les resulta difícil eliminar completamente los artefactos. Al utilizar técnicas avanzadas como el postprocesamiento después de la decodificación inicial, este método puede mejorar significativamente la claridad visual y restaurar detalles que pueden haber sido comprometidos durante la compresión. En este documento, presentamos una Red Generativa Antagónica de Características Mejoradas Residuales Profundas como un método de postprocesamiento destinado a mejorar aún más la calidad de los fotogramas reconstruidos del códec avanzado VVC. Al utilizar los beneficios de los Bloques Residuales Profundos y los Bloques de Características Mejoradas, la red generadora tiene como objetivo hacer que el fotograma reconstruido sea lo más similar posible al fotograma original. La red discriminadora, un elemento crucial de nuestro método propuesto, desempeña un papel vital al guiar al generador evaluando la autenticidad de los fotogramas generados. Al distinguir entre fotogramas falsos y originales, el discriminador permite que el generador mejore la calidad de su salida. Este mecanismo de retroalimentación asegura que el generador aprenda a crear fotogramas más realistas, mejorando en última instancia el rendimiento general del modelo. El método propuesto muestra un aumento significativo para las configuraciones de Acceso Aleatorio (RA) y Todo Intra (AI) mientras mejora la Evaluación de Fusión Multimétodo de Video (VMAF) y la Medida de Índice de Similitud Estructural Multiescala (MS-SSIM). Considerando VMAF, nuestro método propuesto puede obtener un aumento de 13.05% y 11.09% en la Tasa de Delta de Bjøntegaard (BD-Rate) para la configuración RA y AI, respectivamente. En el caso del componente de luminancia MS-SSIM, las configuraciones RA y AI obtienen, respectivamente, un aumento de 5.00% y 5.87% en la Tasa de Delta de Bjøntegaard después de emplear nuestra red propuesta sugerida.