logo móvil
Contáctanos

Filtro post-convolucional de red neuronal convolucional basado en autoatención de múltiples tipos para el códec AV1

Autores: Gwun, Woowoen; Choi, Kiho; Park, Gwang Hoon

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Filtro post-convolucional de red neuronal convolucional basado en autoatención de múltiples tipos para el códec AV1


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Redes neuronales convolucionales
Post-filtrado
Codificación de video
AV1
Capas de autoatención
Eficiencia de compresión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
Durante los últimos años, ha habido un interés sustancial y actividad de investigación en torno a la aplicación de Redes Neuronales Convolucionales (CNNs) para el post-filtrado en codificación de video. La mayoría de los esfuerzos de investigación actuales se han centrado en el uso de CNNs con varios tamaños de kernel para el post-filtrado, concentrándose principalmente en High-Efficiency Video Coding/H.265 (HEVC) y Versatile Video Coding/H.266 (VVC). Este enfoque estrecho ha limitado la exploración y aplicación de estas técnicas a otros estándares de codificación de video como AV1, desarrollado por la Alianza para Medios Abiertos, que ofrece una excelente eficiencia de compresión, reduciendo el uso del ancho de banda y mejorando la calidad del video, lo que lo hace muy atractivo para aplicaciones modernas de streaming y medios. Este documento introduce un enfoque novedoso que se extiende más allá de los métodos tradicionales de CNN al integrar tres capas de auto-atención diferentes en el marco de CNN. Aplicado al códec AV1, el método propuesto mejora significativamente la calidad del video al incorporar estas distintas capas de auto-atención. Esta mejora demuestra el potencial de los mecanismos de auto-atención para revolucionar las técnicas de post-filtrado en la codificación de video más allá de las limitaciones de los métodos basados en convolución. Los resultados experimentales muestran que la red propuesta logra una reducción promedio de la tasa de bits de 10.40% para el componente Luma y 19.22% y 16.52% para los componentes Chroma en comparación con el ancla AV1. Las evaluaciones de calidad visual validaron aún más la efectividad de nuestro enfoque, mostrando una reducción sustancial de artefactos y una mejora de detalles en los videos.

Otros recursos que podrían interesarte

Temas Virtualpro