Generación de descripciones de imágenes utilizando redes Faster R-CNN-LSTM basadas en temas
Autores: Yeh, Jui-Feng; Lin, Kuei-Mei; Chen, Chun-Chieh
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Generación de descripciones de imágenes utilizando redes Faster R-CNN-LSTM basadas en temas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Etiquetado de imágenes
Contenido semántico
Descripciones diversas
ResNet
LSTM
Modelo de temas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La generación de descripciones de imágenes es una tarea importante en la investigación multimodal en numerosas aplicaciones. La generación de descripciones de imágenes tiene como objetivo capturar el contenido semántico de una imagen y expresarlo en una oración lingüísticamente y contextualmente apropiada. Sin embargo, los modelos existentes tienden a centrarse principalmente en un tema generado por los objetos de primer plano más conspicuos. Así, otros temas en la imagen a menudo son ignorados. Para abordar estas limitaciones, proponemos un modelo que puede generar un contenido semántico más rico y descripciones más diversas. El modelo propuesto puede capturar no solo los temas principales utilizando objetos de grano grueso, sino que también encuentra información visual de grano fino de objetos de fondo o de primer plano menores. Nuestro sistema de generación de descripciones de imágenes combina los modelos ResNet, LSTM y de características temáticas. El modelo ResNet extrae características de imagen de grano fino y enriquece la descripción de los objetos. El modelo LSTM proporciona un contexto más largo para la semántica, aumentando la fluidez y la completitud semántica de las oraciones generadas. El modelo temático determina múltiples temas basados en el contenido de la imagen y el texto. Los temas proporcionan direcciones para que el modelo genere diferentes oraciones. Evaluamos nuestro modelo en el conjunto de datos MSCOCO. Los resultados muestran que, en comparación con otros modelos, nuestro modelo logra una cierta mejora en las puntuaciones BLEU de orden superior y una mejora significativa en la puntuación CIDEr.
Descripción
La generación de descripciones de imágenes es una tarea importante en la investigación multimodal en numerosas aplicaciones. La generación de descripciones de imágenes tiene como objetivo capturar el contenido semántico de una imagen y expresarlo en una oración lingüísticamente y contextualmente apropiada. Sin embargo, los modelos existentes tienden a centrarse principalmente en un tema generado por los objetos de primer plano más conspicuos. Así, otros temas en la imagen a menudo son ignorados. Para abordar estas limitaciones, proponemos un modelo que puede generar un contenido semántico más rico y descripciones más diversas. El modelo propuesto puede capturar no solo los temas principales utilizando objetos de grano grueso, sino que también encuentra información visual de grano fino de objetos de fondo o de primer plano menores. Nuestro sistema de generación de descripciones de imágenes combina los modelos ResNet, LSTM y de características temáticas. El modelo ResNet extrae características de imagen de grano fino y enriquece la descripción de los objetos. El modelo LSTM proporciona un contexto más largo para la semántica, aumentando la fluidez y la completitud semántica de las oraciones generadas. El modelo temático determina múltiples temas basados en el contenido de la imagen y el texto. Los temas proporcionan direcciones para que el modelo genere diferentes oraciones. Evaluamos nuestro modelo en el conjunto de datos MSCOCO. Los resultados muestran que, en comparación con otros modelos, nuestro modelo logra una cierta mejora en las puntuaciones BLEU de orden superior y una mejora significativa en la puntuación CIDEr.