Haciendo que las imágenes hablen: Generación de descripciones de imágenes inspiradas en humanos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Haciendo que las imágenes hablen: Generación de descripciones de imágenes inspiradas en humanos

Autores: Sebbane, Chifaa; Belhajem, Ikram; Rziza, Mohammed

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Haciendo que las imágenes hablen: Generación de descripciones de imágenes inspiradas en humanos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Avances significativos

Subtitulado de imágenes basado en aprendizaje profundo

Anclaje visual

Coherencia lingüística

Marco híbrido de subtitulado de imágenes

Mecanismos de atención

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

A pesar de los avances significativos en la generación de descripciones de imágenes basada en aprendizaje profundo, muchos modelos de vanguardia aún luchan por equilibrar la anclaje visual (es decir, descripciones precisas de objetos y escenas) con la coherencia lingüística (es decir, fluidez gramatical y uso apropiado de tokens no visuales como artículos y preposiciones). Para abordar estas limitaciones, proponemos un marco híbrido de generación de descripciones de imágenes que integra características visuales artesanales y profundas. Específicamente, combinamos descriptores locales -Transformación de Características Invariantes a la Escala (SIFT) y Bolsa de Características (BoF)- con características semánticas de alto nivel extraídas utilizando ResNet50. Esta representación dual captura tanto detalles espaciales finos como semánticas contextuales. El decodificador emplea atención de Bahdanau refinada con un mecanismo de Atención-sobre-Attención (AoA) para optimizar la alineación visual-textual, mientras que las incrustaciones de GloVe y un modelo de secuencia basado en GRU aseguran una generación de lenguaje fluida. El sistema propuesto se entrena con 200,000 pares de imagen-descripción del conjunto de datos MS COCO train2014 y se evalúa en 50,000 pares de MS COCO retenidos más el benchmark de Flickr8K. Nuestro modelo alcanza una puntuación CIDEr de 128.3 y una puntuación SPICE de 29.24, reflejando mejoras claras sobre las líneas base en precisión semántica, particularmente para relaciones espaciales, y fluidez gramatical. Estos resultados validan que combinar técnicas clásicas de visión por computadora con mecanismos modernos de atención produce descripciones más interpretables y lingüísticamente precisas, abordando limitaciones clave en la generación de descripciones neuronales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro