Multi-escala autoatención basada en post-filtrado de redes neuronales convolucionales para el códec AV1: hacia una calidad visual mejorada y un rendimiento de codificación general
Autores: Gwun, Woowoen; Choi, Kiho; Park, Gwang Hoon
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Multi-escala autoatención basada en post-filtrado de redes neuronales convolucionales para el códec AV1: hacia una calidad visual mejorada y un rendimiento de codificación general
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Red de autoatención multi-escala
Multi-tipo
Video comprimido AV1
Post-filtrado
Supresión de artefactos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
Este papel presenta MS-MTSA, una red de autoatención autoescalable y de varios tipos diseñada para mejorar videos comprimidos AV1 a través de un postfiltrado dirigido. El objetivo es abordar dos problemas persistentes de artefactos observados en nuestro modelo MTSA anterior: costuras visibles en los límites de los parches y distorsiones tipo rejilla por el aumento de muestreo. Para ello, MS-MTSA introduce dos mejoras arquitectónicas clave. Primero, la autoatención en bloques de múltiples escalas aplica atención secuencial sobre bloques de 16 x 16 y 12 x 12 para capturar mejor el contexto local y mejorar la continuidad espacial. En segundo lugar, la autoatención refinada de parches incluye una capa de refinamiento convolucional ligera después del aumento de muestreo para suprimir artefactos estructurados en regiones planas. Estas modificaciones dirigidas mejoran significativamente tanto la calidad perceptual como cuantitativa. La red propuesta logra reducciones de tasa de bits BD de 12,44% para Y, 21,70% para Cb y 19,90% para Cr en comparación con el anclaje AV1. Las evaluaciones visuales confirman una mayor fidelidad de textura y una reducción de artefactos de costura, demostrando la efectividad de combinar la atención de múltiples escalas y el refinamiento estructural para la supresión de artefactos en video comprimido.
Descripción
Este papel presenta MS-MTSA, una red de autoatención autoescalable y de varios tipos diseñada para mejorar videos comprimidos AV1 a través de un postfiltrado dirigido. El objetivo es abordar dos problemas persistentes de artefactos observados en nuestro modelo MTSA anterior: costuras visibles en los límites de los parches y distorsiones tipo rejilla por el aumento de muestreo. Para ello, MS-MTSA introduce dos mejoras arquitectónicas clave. Primero, la autoatención en bloques de múltiples escalas aplica atención secuencial sobre bloques de 16 x 16 y 12 x 12 para capturar mejor el contexto local y mejorar la continuidad espacial. En segundo lugar, la autoatención refinada de parches incluye una capa de refinamiento convolucional ligera después del aumento de muestreo para suprimir artefactos estructurados en regiones planas. Estas modificaciones dirigidas mejoran significativamente tanto la calidad perceptual como cuantitativa. La red propuesta logra reducciones de tasa de bits BD de 12,44% para Y, 21,70% para Cb y 19,90% para Cr en comparación con el anclaje AV1. Las evaluaciones visuales confirman una mayor fidelidad de textura y una reducción de artefactos de costura, demostrando la efectividad de combinar la atención de múltiples escalas y el refinamiento estructural para la supresión de artefactos en video comprimido.