Impacto de la compresión de video y la incrustación multimodal en la descripción de escenas
Autores: Lee, Jin Young
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Impacto de la compresión de video y la incrustación multimodal en la descripción de escenas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Generación
Multimodalidades
Imagen
Artefactos de compresión
Red
Experimental
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La descripción de escenas se refiere a la generación automática de descripciones en lenguaje natural a partir de videos. En general, las redes de descripción de escenas basadas en aprendizaje profundo utilizan multimodalidades, como información de imagen, movimiento, audio y etiquetas, para mejorar la calidad de la descripción. En particular, la información de imagen juega un papel importante en la descripción de escenas. Sin embargo, la descripción de escenas tiene un problema potencial, ya que puede manejar imágenes con artefactos de compresión severos. Por lo tanto, este documento analiza el impacto de la compresión de video en la descripción de escenas, y luego propone una red simple que es robusta a los artefactos de compresión. Además, también se propone una red que cascada más capas de codificación para una incrustación multimodal eficiente. Los resultados experimentales muestran que la red propuesta es más eficiente que las redes convencionales.
Descripción
La descripción de escenas se refiere a la generación automática de descripciones en lenguaje natural a partir de videos. En general, las redes de descripción de escenas basadas en aprendizaje profundo utilizan multimodalidades, como información de imagen, movimiento, audio y etiquetas, para mejorar la calidad de la descripción. En particular, la información de imagen juega un papel importante en la descripción de escenas. Sin embargo, la descripción de escenas tiene un problema potencial, ya que puede manejar imágenes con artefactos de compresión severos. Por lo tanto, este documento analiza el impacto de la compresión de video en la descripción de escenas, y luego propone una red simple que es robusta a los artefactos de compresión. Además, también se propone una red que cascada más capas de codificación para una incrustación multimodal eficiente. Los resultados experimentales muestran que la red propuesta es más eficiente que las redes convencionales.