N-depth: codificación de profundidad neuronal para transmisión de video 3D resistente a la compresión
Autores: Siemonsma, Stephen; Bell, Tyler
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
N-depth: codificación de profundidad neuronal para transmisión de video 3D resistente a la compresión
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Avances
Captura de datos en 3D
Codificación de profundidad
Compresión
Codificación de profundidad neural
Aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Los avances recientes en la captura de datos en 3D han permitido la adquisición en tiempo real de datos de rango en 3D de alta resolución, incluso en dispositivos móviles. Sin embargo, este tipo de datos de alta profundidad de bits sigue siendo difícil de transmitir eficientemente a través de una conexión de banda ancha estándar. Las técnicas más exitosas para abordar este problema de datos hasta ahora han sido esquemas de codificación de profundidad basados en imágenes que aprovechan los códecs modernos de imagen y video. Hasta donde sabemos, no se ha publicado ningún trabajo que haya optimizado directamente las pérdidas de extremo a extremo de un esquema de codificación de profundidad enmarcado alrededor de un códec de compresión de imagen con pérdida. Presentamos N-DEPTH, un método de codificación de profundidad neural resistente a la compresión que aprovecha el aprendizaje profundo para codificar eficientemente mapas de profundidad en representaciones RGB de 24 bits que minimizan los errores de reconstrucción de profundidad de extremo a extremo cuando se comprimen con JPEG. La robustez aprendida por N-DEPTH frente a la compresión con pérdida se extiende también a los códecs de video. En comparación con un método de codificación existente de última generación, N-DEPTH logra tamaños de archivo más pequeños y errores más bajos en una amplia gama de calidades de compresión, tanto en formatos de imagen (JPEG) como de video (H.264). Por ejemplo, las reconstrucciones de las codificaciones de N-DEPTH almacenadas con JPEG tenían un error dramáticamente más bajo y aún así ofrecían tamaños de archivo un 29,8% más pequeños. Cuando se utilizó video H.264 para apuntar a una velocidad de bits de 10 Mbps, las reconstrucciones de N-DEPTH tenían un error cuadrático medio (RMSE) un 85,1% más bajo y un error absoluto medio (MAE) un 15,3% más bajo. En general, nuestro método ofrece una solución eficiente y robusta para aplicaciones emergentes de transmisión en 3D y telepresencia en 3D, lo que permite el almacenamiento y la transmisión de datos de profundidad en 3D de alta calidad.
Descripción
Los avances recientes en la captura de datos en 3D han permitido la adquisición en tiempo real de datos de rango en 3D de alta resolución, incluso en dispositivos móviles. Sin embargo, este tipo de datos de alta profundidad de bits sigue siendo difícil de transmitir eficientemente a través de una conexión de banda ancha estándar. Las técnicas más exitosas para abordar este problema de datos hasta ahora han sido esquemas de codificación de profundidad basados en imágenes que aprovechan los códecs modernos de imagen y video. Hasta donde sabemos, no se ha publicado ningún trabajo que haya optimizado directamente las pérdidas de extremo a extremo de un esquema de codificación de profundidad enmarcado alrededor de un códec de compresión de imagen con pérdida. Presentamos N-DEPTH, un método de codificación de profundidad neural resistente a la compresión que aprovecha el aprendizaje profundo para codificar eficientemente mapas de profundidad en representaciones RGB de 24 bits que minimizan los errores de reconstrucción de profundidad de extremo a extremo cuando se comprimen con JPEG. La robustez aprendida por N-DEPTH frente a la compresión con pérdida se extiende también a los códecs de video. En comparación con un método de codificación existente de última generación, N-DEPTH logra tamaños de archivo más pequeños y errores más bajos en una amplia gama de calidades de compresión, tanto en formatos de imagen (JPEG) como de video (H.264). Por ejemplo, las reconstrucciones de las codificaciones de N-DEPTH almacenadas con JPEG tenían un error dramáticamente más bajo y aún así ofrecían tamaños de archivo un 29,8% más pequeños. Cuando se utilizó video H.264 para apuntar a una velocidad de bits de 10 Mbps, las reconstrucciones de N-DEPTH tenían un error cuadrático medio (RMSE) un 85,1% más bajo y un error absoluto medio (MAE) un 15,3% más bajo. En general, nuestro método ofrece una solución eficiente y robusta para aplicaciones emergentes de transmisión en 3D y telepresencia en 3D, lo que permite el almacenamiento y la transmisión de datos de profundidad en 3D de alta calidad.