logo móvil
Contáctanos

Haciendo que las imágenes hablen: Generación de descripciones de imágenes inspiradas en humanos

Autores: Sebbane, Chifaa; Belhajem, Ikram; Rziza, Mohammed

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Haciendo que las imágenes hablen: Generación de descripciones de imágenes inspiradas en humanos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Avances significativos
Subtitulado de imágenes basado en aprendizaje profundo
Anclaje visual
Coherencia lingüística
Marco híbrido de subtitulado de imágenes
Mecanismos de atención

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
A pesar de los avances significativos en la generación de descripciones de imágenes basada en aprendizaje profundo, muchos modelos de vanguardia aún luchan por equilibrar la anclaje visual (es decir, descripciones precisas de objetos y escenas) con la coherencia lingüística (es decir, fluidez gramatical y uso apropiado de tokens no visuales como artículos y preposiciones). Para abordar estas limitaciones, proponemos un marco híbrido de generación de descripciones de imágenes que integra características visuales artesanales y profundas. Específicamente, combinamos descriptores locales -Transformación de Características Invariantes a la Escala (SIFT) y Bolsa de Características (BoF)- con características semánticas de alto nivel extraídas utilizando ResNet50. Esta representación dual captura tanto detalles espaciales finos como semánticas contextuales. El decodificador emplea atención de Bahdanau refinada con un mecanismo de Atención-sobre-Attención (AoA) para optimizar la alineación visual-textual, mientras que las incrustaciones de GloVe y un modelo de secuencia basado en GRU aseguran una generación de lenguaje fluida. El sistema propuesto se entrena con 200,000 pares de imagen-descripción del conjunto de datos MS COCO train2014 y se evalúa en 50,000 pares de MS COCO retenidos más el benchmark de Flickr8K. Nuestro modelo alcanza una puntuación CIDEr de 128.3 y una puntuación SPICE de 29.24, reflejando mejoras claras sobre las líneas base en precisión semántica, particularmente para relaciones espaciales, y fluidez gramatical. Estos resultados validan que combinar técnicas clásicas de visión por computadora con mecanismos modernos de atención produce descripciones más interpretables y lingüísticamente precisas, abordando limitaciones clave en la generación de descripciones neuronales.

Otros recursos que podrían interesarte

Temas Virtualpro