logo móvil
Contáctanos

Mantener un mejor equilibrio entre rendimiento y costo para la descripción de imágenes mediante un módulo convolucional ajustable en tamaño

Autores: Lyu, Yan; Liu, Yong; Zhao, Qiangfu

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Mantener un mejor equilibrio entre rendimiento y costo para la descripción de imágenes mediante un módulo convolucional ajustable en tamaño


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Subtítulos de imágenes
Modelos de aprendizaje profundo
Detección de objetos
Módulo convolucional
Puntuaciones BLEU
Parámetros

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones


Descripción
La subtitulación de imágenes es un problema desafiante de IA que conecta la visión por computadora y el procesamiento del lenguaje natural. Muchos modelos de aprendizaje profundo (DL) han sido propuestos en la literatura para resolver este problema. Hasta ahora, la principal preocupación de la subtitulación de imágenes se ha centrado en aumentar la precisión de generar frases de estilo humano para describir las imágenes dadas. Como resultado, los modelos de última generación (SOTA) a menudo son demasiado caros para implementarse en dispositivos computacionalmente débiles. En contraste, la principal preocupación de este documento es mantener un equilibrio entre el rendimiento y el costo. Con este propósito, proponemos utilizar un modelo de DL pre-entrenado para la detección de objetos para codificar la imagen dada de modo que las características de varios objetos puedan extraerse simultáneamente. También proponemos agregar un módulo convolucional ajustable en tamaño (SACM) antes de decodificar las características en frases. Los resultados experimentales muestran que el modelo con el SACM ajustado adecuadamente podría alcanzar un puntaje BLEU-1 de 82.3 y un puntaje BLEU-4 de 43.9 en el conjunto de datos de Flickr 8K, y un puntaje BLEU-1 de 83.1 y un puntaje BLEU-4 de 44.3 en el conjunto de datos de MS COCO. Con el SACM, el número de parámetros se reduce a 108M, que es aproximadamente 1/4 del modelo original YOLOv3-LSTM con 430M parámetros. Específicamente, en comparación con mPLUG con 510M parámetros, que es uno de los métodos SOTA, el método propuesto puede lograr casi los mismos puntajes BLEU-4, pero el número de parámetros es un 78% menor que el de mPLUG.

Otros recursos que podrían interesarte

Temas Virtualpro