logo móvil
Contáctanos

Modelo denso para la generación automática de descripciones de imágenes con optimización teórica de juegos

Autores: S R, Sreela; Idicula, Sumam Mary

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Modelo denso para la generación automática de descripciones de imágenes con optimización teórica de juegos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje profundo
Generación de descripciones de imágenes
Visión por computadora
Procesamiento de lenguaje natural
Redes neuronales
LSTM

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Debido al rápido crecimiento de las tecnologías de aprendizaje profundo, la generación automática de descripciones de imágenes es un problema interesante en la visión por computadora y la generación de lenguaje natural. Ayuda a mejorar el acceso a colecciones de fotos en redes sociales y proporciona orientación para personas con discapacidad visual. Actualmente, las redes neuronales profundas juegan un papel vital en las tareas de visión por computadora y procesamiento de lenguaje natural. El objetivo principal del trabajo es generar la descripción gramaticalmente correcta de la imagen utilizando la semántica de los subtítulos entrenados. Se utiliza un marco de codificador-decodificador con un sistema neuronal profundo para implementar una tarea de generación de descripciones de imágenes. El codificador es un módulo de análisis de imágenes, y el decodificador es un módulo de realización superficial. El marco utiliza redes neuronales convolucionales densamente conectadas (Densenet) para la codificación de imágenes y Memoria a Largo Plazo y Corto Plazo Bidireccional (BLSTM) para el modelado del lenguaje, y las salidas se entregan a un LSTM bidireccional en el generador de subtítulos, que se entrena para optimizar la log-verosimilitud de la descripción objetivo de la imagen. La mayoría de los trabajos existentes sobre subtitulación de imágenes utilizan RNN y LSTM para el modelado del lenguaje. Las RNN son computacionalmente costosas con memoria limitada. LSTM verifica las entradas en una dirección. En la práctica se utiliza BLSTM, que evita el problema de RNN y LSTM. En este trabajo, la selección de la mejor combinación de palabras en la generación de subtítulos se realiza utilizando búsqueda en haz y búsqueda teórica de juegos. Los resultados muestran que la búsqueda teórica de juegos supera a la búsqueda en haz. El modelo fue evaluado con el conjunto de datos de referencia estándar Flickr8k. La puntuación de Evaluación Bilingüe (BLEU) se toma como medida de evaluación del sistema. Se utilizó una nueva medida de evaluación llamada GCorrect para verificar la corrección gramatical de la descripción. El rendimiento del modelo propuesto logra mejoras significativas sobre métodos anteriores en el conjunto de datos Flickr8k. El modelo propuesto produce oraciones gramaticalmente correctas para imágenes con un GCorrect de 0.040625 y una puntuación BLEU del 69.96%.

Otros recursos que podrían interesarte

Temas Virtualpro