Modelo denso para la generación automática de descripciones de imágenes con optimización teórica de juegos
Autores: S R, Sreela; Idicula, Sumam Mary
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Modelo denso para la generación automática de descripciones de imágenes con optimización teórica de juegos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje profundo
Generación de descripciones de imágenes
Visión por computadora
Procesamiento de lenguaje natural
Redes neuronales
LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Debido al rápido crecimiento de las tecnologías de aprendizaje profundo, la generación automática de descripciones de imágenes es un problema interesante en la visión por computadora y la generación de lenguaje natural. Ayuda a mejorar el acceso a colecciones de fotos en redes sociales y proporciona orientación para personas con discapacidad visual. Actualmente, las redes neuronales profundas juegan un papel vital en las tareas de visión por computadora y procesamiento de lenguaje natural. El objetivo principal del trabajo es generar la descripción gramaticalmente correcta de la imagen utilizando la semántica de los subtítulos entrenados. Se utiliza un marco de codificador-decodificador con un sistema neuronal profundo para implementar una tarea de generación de descripciones de imágenes. El codificador es un módulo de análisis de imágenes, y el decodificador es un módulo de realización superficial. El marco utiliza redes neuronales convolucionales densamente conectadas (Densenet) para la codificación de imágenes y Memoria a Largo Plazo y Corto Plazo Bidireccional (BLSTM) para el modelado del lenguaje, y las salidas se entregan a un LSTM bidireccional en el generador de subtítulos, que se entrena para optimizar la log-verosimilitud de la descripción objetivo de la imagen. La mayoría de los trabajos existentes sobre subtitulación de imágenes utilizan RNN y LSTM para el modelado del lenguaje. Las RNN son computacionalmente costosas con memoria limitada. LSTM verifica las entradas en una dirección. En la práctica se utiliza BLSTM, que evita el problema de RNN y LSTM. En este trabajo, la selección de la mejor combinación de palabras en la generación de subtítulos se realiza utilizando búsqueda en haz y búsqueda teórica de juegos. Los resultados muestran que la búsqueda teórica de juegos supera a la búsqueda en haz. El modelo fue evaluado con el conjunto de datos de referencia estándar Flickr8k. La puntuación de Evaluación Bilingüe (BLEU) se toma como medida de evaluación del sistema. Se utilizó una nueva medida de evaluación llamada GCorrect para verificar la corrección gramatical de la descripción. El rendimiento del modelo propuesto logra mejoras significativas sobre métodos anteriores en el conjunto de datos Flickr8k. El modelo propuesto produce oraciones gramaticalmente correctas para imágenes con un GCorrect de 0.040625 y una puntuación BLEU del 69.96%.
Descripción
Debido al rápido crecimiento de las tecnologías de aprendizaje profundo, la generación automática de descripciones de imágenes es un problema interesante en la visión por computadora y la generación de lenguaje natural. Ayuda a mejorar el acceso a colecciones de fotos en redes sociales y proporciona orientación para personas con discapacidad visual. Actualmente, las redes neuronales profundas juegan un papel vital en las tareas de visión por computadora y procesamiento de lenguaje natural. El objetivo principal del trabajo es generar la descripción gramaticalmente correcta de la imagen utilizando la semántica de los subtítulos entrenados. Se utiliza un marco de codificador-decodificador con un sistema neuronal profundo para implementar una tarea de generación de descripciones de imágenes. El codificador es un módulo de análisis de imágenes, y el decodificador es un módulo de realización superficial. El marco utiliza redes neuronales convolucionales densamente conectadas (Densenet) para la codificación de imágenes y Memoria a Largo Plazo y Corto Plazo Bidireccional (BLSTM) para el modelado del lenguaje, y las salidas se entregan a un LSTM bidireccional en el generador de subtítulos, que se entrena para optimizar la log-verosimilitud de la descripción objetivo de la imagen. La mayoría de los trabajos existentes sobre subtitulación de imágenes utilizan RNN y LSTM para el modelado del lenguaje. Las RNN son computacionalmente costosas con memoria limitada. LSTM verifica las entradas en una dirección. En la práctica se utiliza BLSTM, que evita el problema de RNN y LSTM. En este trabajo, la selección de la mejor combinación de palabras en la generación de subtítulos se realiza utilizando búsqueda en haz y búsqueda teórica de juegos. Los resultados muestran que la búsqueda teórica de juegos supera a la búsqueda en haz. El modelo fue evaluado con el conjunto de datos de referencia estándar Flickr8k. La puntuación de Evaluación Bilingüe (BLEU) se toma como medida de evaluación del sistema. Se utilizó una nueva medida de evaluación llamada GCorrect para verificar la corrección gramatical de la descripción. El rendimiento del modelo propuesto logra mejoras significativas sobre métodos anteriores en el conjunto de datos Flickr8k. El modelo propuesto produce oraciones gramaticalmente correctas para imágenes con un GCorrect de 0.040625 y una puntuación BLEU del 69.96%.