Un enfoque modularizado de red neuronal convolucional de múltiples ramas para generación de subtítulos de imágenes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un enfoque modularizado de red neuronal convolucional de múltiples ramas para generación de subtítulos de imágenes

Autores: He, Shan; Lu, Yuanyao

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Un enfoque modularizado de red neuronal convolucional de múltiples ramas para generación de subtítulos de imágenes

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Subtitulado de imágenes

Visión por computadora

Procesamiento del lenguaje natural

Red neuronal convolucional

Red neuronal recurrente

CNN de múltiples ramas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones

La generación de subtítulos de imágenes es una tarea exhaustiva en visión por computadora (CV) y procesamiento de lenguaje natural (NLP). Puede completar la conversión de imagen a texto, es decir, el algoritmo genera automáticamente un texto descriptivo correspondiente según la imagen de entrada. En este documento, presentamos un modelo de extremo a extremo que toma una red neuronal convolucional profunda (CNN) como el codificador y una red neuronal recurrente (RNN) como el decodificador. Con el fin de obtener una mejor extracción de subtítulos de imágenes, proponemos una CNN multi-rama altamente modularizada, que podría aumentar la precisión manteniendo inalterado el número de hiperparámetros. Esta estrategia proporciona una red simplemente diseñada que consta de submódulos paralelos de la misma estructura. Mientras que las CNN tradicionales se vuelven más profundas y anchas para aumentar la precisión, nuestro método propuesto es más efectivo con un diseño simple, que es más fácil de optimizar para su aplicación práctica. Se realizan experimentos en entidades Flickr8k, Flickr30k y MSCOCO. Los resultados demuestran que nuestro método logra un rendimiento de vanguardia en cuanto a calidad de subtítulos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro