Generación de subtítulos de video conscientes del contexto con Computadora Neural Diferenciable Consecutiva
Autores: Kim, Jonghong; Choi, Inchul; Lee, Minho
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Generación de subtítulos de video conscientes del contexto con Computadora Neural Diferenciable Consecutiva
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelos de subtitulado de video
Modelo de subtitulado de video consciente del contexto
Memoria externa
Computadora neural diferencial
LSTM
Comprensión del contexto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
Los modelos recientes de subtitulado de videos buscan describir todos los eventos en un video largo. Sin embargo, sus descripciones de eventos no explotan completamente la información contextual incluida en un video porque carecen de la capacidad de recordar los cambios de información con el tiempo. Para abordar este problema, proponemos un modelo novedoso de subtitulado de videos con conciencia contextual que genera descripciones en lenguaje natural basadas en una mejor comprensión del contexto del video. Introducimos una memoria externa, un ordenador neural diferencial (DNC), para mejorar la comprensión del contexto del video. DNC aprende naturalmente a utilizar su memoria interna para la comprensión del contexto y también proporciona el contenido de su memoria como una salida para una conexión adicional. Al conectar secuencialmente modelos de subtítulos basados en DNC (LSTM aumentado con DNC) a través de esta información de memoria, nuestra arquitectura de DNC conectada de forma consecutiva puede comprender el contexto en un video sin buscar explícitamente correlaciones entre eventos. Nuestro DNC consecutivo se entrena secuencialmente con su modelo de lenguaje (LSTM) para cada clip de video con el fin de generar subtítulos con conciencia contextual de calidad superior. En experimentos, demostramos que nuestro modelo proporciona subtítulos más naturales y coherentes que reflejan información contextual previa. Nuestro modelo también muestra un rendimiento cuantitativo superior en el subtitulado de videos en términos de BLEU (BLEU@4 4.37), METEOR (9.57) y CIDEr-D (28.08).
Descripción
Los modelos recientes de subtitulado de videos buscan describir todos los eventos en un video largo. Sin embargo, sus descripciones de eventos no explotan completamente la información contextual incluida en un video porque carecen de la capacidad de recordar los cambios de información con el tiempo. Para abordar este problema, proponemos un modelo novedoso de subtitulado de videos con conciencia contextual que genera descripciones en lenguaje natural basadas en una mejor comprensión del contexto del video. Introducimos una memoria externa, un ordenador neural diferencial (DNC), para mejorar la comprensión del contexto del video. DNC aprende naturalmente a utilizar su memoria interna para la comprensión del contexto y también proporciona el contenido de su memoria como una salida para una conexión adicional. Al conectar secuencialmente modelos de subtítulos basados en DNC (LSTM aumentado con DNC) a través de esta información de memoria, nuestra arquitectura de DNC conectada de forma consecutiva puede comprender el contexto en un video sin buscar explícitamente correlaciones entre eventos. Nuestro DNC consecutivo se entrena secuencialmente con su modelo de lenguaje (LSTM) para cada clip de video con el fin de generar subtítulos con conciencia contextual de calidad superior. En experimentos, demostramos que nuestro modelo proporciona subtítulos más naturales y coherentes que reflejan información contextual previa. Nuestro modelo también muestra un rendimiento cuantitativo superior en el subtitulado de videos en términos de BLEU (BLEU@4 4.37), METEOR (9.57) y CIDEr-D (28.08).