logo móvil
Contáctanos

Generación de subtítulos de video conscientes del contexto con Computadora Neural Diferenciable Consecutiva

Autores: Kim, Jonghong; Choi, Inchul; Lee, Minho

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Generación de subtítulos de video conscientes del contexto con Computadora Neural Diferenciable Consecutiva


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelos de subtitulado de video
Modelo de subtitulado de video consciente del contexto
Memoria externa
Computadora neural diferencial
LSTM
Comprensión del contexto

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones


Descripción
Los modelos recientes de subtitulado de videos buscan describir todos los eventos en un video largo. Sin embargo, sus descripciones de eventos no explotan completamente la información contextual incluida en un video porque carecen de la capacidad de recordar los cambios de información con el tiempo. Para abordar este problema, proponemos un modelo novedoso de subtitulado de videos con conciencia contextual que genera descripciones en lenguaje natural basadas en una mejor comprensión del contexto del video. Introducimos una memoria externa, un ordenador neural diferencial (DNC), para mejorar la comprensión del contexto del video. DNC aprende naturalmente a utilizar su memoria interna para la comprensión del contexto y también proporciona el contenido de su memoria como una salida para una conexión adicional. Al conectar secuencialmente modelos de subtítulos basados en DNC (LSTM aumentado con DNC) a través de esta información de memoria, nuestra arquitectura de DNC conectada de forma consecutiva puede comprender el contexto en un video sin buscar explícitamente correlaciones entre eventos. Nuestro DNC consecutivo se entrena secuencialmente con su modelo de lenguaje (LSTM) para cada clip de video con el fin de generar subtítulos con conciencia contextual de calidad superior. En experimentos, demostramos que nuestro modelo proporciona subtítulos más naturales y coherentes que reflejan información contextual previa. Nuestro modelo también muestra un rendimiento cuantitativo superior en el subtitulado de videos en términos de BLEU (BLEU@4 4.37), METEOR (9.57) y CIDEr-D (28.08).

Otros recursos que podrían interesarte

Temas Virtualpro