logo móvil
Contáctanos

Un enfoque modularizado de red neuronal convolucional de múltiples ramas para generación de subtítulos de imágenes

Autores: He, Shan; Lu, Yuanyao

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Un enfoque modularizado de red neuronal convolucional de múltiples ramas para generación de subtítulos de imágenes


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Subtitulado de imágenes
Visión por computadora
Procesamiento del lenguaje natural
Red neuronal convolucional
Red neuronal recurrente
CNN de múltiples ramas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones


Descripción
La generación de subtítulos de imágenes es una tarea exhaustiva en visión por computadora (CV) y procesamiento de lenguaje natural (NLP). Puede completar la conversión de imagen a texto, es decir, el algoritmo genera automáticamente un texto descriptivo correspondiente según la imagen de entrada. En este documento, presentamos un modelo de extremo a extremo que toma una red neuronal convolucional profunda (CNN) como el codificador y una red neuronal recurrente (RNN) como el decodificador. Con el fin de obtener una mejor extracción de subtítulos de imágenes, proponemos una CNN multi-rama altamente modularizada, que podría aumentar la precisión manteniendo inalterado el número de hiperparámetros. Esta estrategia proporciona una red simplemente diseñada que consta de submódulos paralelos de la misma estructura. Mientras que las CNN tradicionales se vuelven más profundas y anchas para aumentar la precisión, nuestro método propuesto es más efectivo con un diseño simple, que es más fácil de optimizar para su aplicación práctica. Se realizan experimentos en entidades Flickr8k, Flickr30k y MSCOCO. Los resultados demuestran que nuestro método logra un rendimiento de vanguardia en cuanto a calidad de subtítulos.

Otros recursos que podrían interesarte

Temas Virtualpro