logo móvil
Contáctanos

Generación de descripciones de imágenes utilizando redes Faster R-CNN-LSTM basadas en temas

Autores: Yeh, Jui-Feng; Lin, Kuei-Mei; Chen, Chun-Chieh

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Generación de descripciones de imágenes utilizando redes Faster R-CNN-LSTM basadas en temas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Etiquetado de imágenes
Contenido semántico
Descripciones diversas
ResNet
LSTM
Modelo de temas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La generación de descripciones de imágenes es una tarea importante en la investigación multimodal en numerosas aplicaciones. La generación de descripciones de imágenes tiene como objetivo capturar el contenido semántico de una imagen y expresarlo en una oración lingüísticamente y contextualmente apropiada. Sin embargo, los modelos existentes tienden a centrarse principalmente en un tema generado por los objetos de primer plano más conspicuos. Así, otros temas en la imagen a menudo son ignorados. Para abordar estas limitaciones, proponemos un modelo que puede generar un contenido semántico más rico y descripciones más diversas. El modelo propuesto puede capturar no solo los temas principales utilizando objetos de grano grueso, sino que también encuentra información visual de grano fino de objetos de fondo o de primer plano menores. Nuestro sistema de generación de descripciones de imágenes combina los modelos ResNet, LSTM y de características temáticas. El modelo ResNet extrae características de imagen de grano fino y enriquece la descripción de los objetos. El modelo LSTM proporciona un contexto más largo para la semántica, aumentando la fluidez y la completitud semántica de las oraciones generadas. El modelo temático determina múltiples temas basados en el contenido de la imagen y el texto. Los temas proporcionan direcciones para que el modelo genere diferentes oraciones. Evaluamos nuestro modelo en el conjunto de datos MSCOCO. Los resultados muestran que, en comparación con otros modelos, nuestro modelo logra una cierta mejora en las puntuaciones BLEU de orden superior y una mejora significativa en la puntuación CIDEr.

Otros recursos que podrían interesarte

Temas Virtualpro