Generación de descripciones de imágenes utilizando redes Faster R-CNN-LSTM basadas en temas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Generación de descripciones de imágenes utilizando redes Faster R-CNN-LSTM basadas en temas

Autores: Yeh, Jui-Feng; Lin, Kuei-Mei; Chen, Chun-Chieh

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Generación de descripciones de imágenes utilizando redes Faster R-CNN-LSTM basadas en temas

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Etiquetado de imágenes

Contenido semántico

Descripciones diversas

ResNet

LSTM

Modelo de temas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La generación de descripciones de imágenes es una tarea importante en la investigación multimodal en numerosas aplicaciones. La generación de descripciones de imágenes tiene como objetivo capturar el contenido semántico de una imagen y expresarlo en una oración lingüísticamente y contextualmente apropiada. Sin embargo, los modelos existentes tienden a centrarse principalmente en un tema generado por los objetos de primer plano más conspicuos. Así, otros temas en la imagen a menudo son ignorados. Para abordar estas limitaciones, proponemos un modelo que puede generar un contenido semántico más rico y descripciones más diversas. El modelo propuesto puede capturar no solo los temas principales utilizando objetos de grano grueso, sino que también encuentra información visual de grano fino de objetos de fondo o de primer plano menores. Nuestro sistema de generación de descripciones de imágenes combina los modelos ResNet, LSTM y de características temáticas. El modelo ResNet extrae características de imagen de grano fino y enriquece la descripción de los objetos. El modelo LSTM proporciona un contexto más largo para la semántica, aumentando la fluidez y la completitud semántica de las oraciones generadas. El modelo temático determina múltiples temas basados en el contenido de la imagen y el texto. Los temas proporcionan direcciones para que el modelo genere diferentes oraciones. Evaluamos nuestro modelo en el conjunto de datos MSCOCO. Los resultados muestran que, en comparación con otros modelos, nuestro modelo logra una cierta mejora en las puntuaciones BLEU de orden superior y una mejora significativa en la puntuación CIDEr.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro