logo móvil
Contáctanos

Un eficiente red de fusión de características de atención multi-escala para interpolación de fotogramas de video 4K

Autores: Ning, Xin; Li, Yuhang; Feng, Ziwei; Liu, Jinhua; Ding, Youdong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un eficiente red de fusión de características de atención multi-escala para interpolación de fotogramas de video 4K


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Interpolación de cuadros de video
Conjunto de datos de video 4k
Estructura de red piramidal multi-escala
Autoatención
Costo computacional
Pesos de agregación conscientes del contenido.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 44

Citaciones: Sin citaciones


Descripción
La interpolación de fotogramas de video tiene como objetivo generar fotogramas intermedios en un video para mostrar detalles más finos. Sin embargo, la mayoría de los métodos solo se entrenan y prueban en conjuntos de datos de baja resolución, careciendo de investigación sobre problemas de interpolación de fotogramas de video 4K. Esta limitación dificulta el manejo del procesamiento de video de alta velocidad de cuadros en escenarios del mundo real. En este artículo, proponemos un conjunto de datos de video 4K a 120 fps, llamado UHD4K120FPS, que contiene grandes movimientos. También proponemos un marco novedoso para resolver la tarea de interpolación de fotogramas de video 4K, basado en una estructura de red de pirámide multi-escala. Introducimos la autoatención para capturar dependencias y auto-similitudes a larga distancia en el espacio de píxeles, lo que supera las limitaciones de las operaciones convolucionales. Para reducir el costo computacional, utilizamos un enfoque basado en mapeo simple para aligerar la autoatención, permitiendo aún pesos de agregación conscientes del contenido. A través de experimentos cuantitativos y cualitativos extensos, demostramos el excelente rendimiento logrado por nuestro modelo propuesto en el conjunto de datos UHD4K120FPS, así como ilustramos la efectividad de nuestro método para la interpolación de fotogramas de video 4K. Además, evaluamos la robustez del modelo en conjuntos de datos de referencia de baja resolución.

Otros recursos que podrían interesarte

Temas Virtualpro