Mantener un mejor equilibrio entre rendimiento y costo para la descripción de imágenes mediante un módulo convolucional ajustable en tamaño
Autores: Lyu, Yan; Liu, Yong; Zhao, Qiangfu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mantener un mejor equilibrio entre rendimiento y costo para la descripción de imágenes mediante un módulo convolucional ajustable en tamaño
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Subtítulos de imágenes
Modelos de aprendizaje profundo
Detección de objetos
Módulo convolucional
Puntuaciones BLEU
Parámetros
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
La subtitulación de imágenes es un problema desafiante de IA que conecta la visión por computadora y el procesamiento del lenguaje natural. Muchos modelos de aprendizaje profundo (DL) han sido propuestos en la literatura para resolver este problema. Hasta ahora, la principal preocupación de la subtitulación de imágenes se ha centrado en aumentar la precisión de generar frases de estilo humano para describir las imágenes dadas. Como resultado, los modelos de última generación (SOTA) a menudo son demasiado caros para implementarse en dispositivos computacionalmente débiles. En contraste, la principal preocupación de este documento es mantener un equilibrio entre el rendimiento y el costo. Con este propósito, proponemos utilizar un modelo de DL pre-entrenado para la detección de objetos para codificar la imagen dada de modo que las características de varios objetos puedan extraerse simultáneamente. También proponemos agregar un módulo convolucional ajustable en tamaño (SACM) antes de decodificar las características en frases. Los resultados experimentales muestran que el modelo con el SACM ajustado adecuadamente podría alcanzar un puntaje BLEU-1 de 82.3 y un puntaje BLEU-4 de 43.9 en el conjunto de datos de Flickr 8K, y un puntaje BLEU-1 de 83.1 y un puntaje BLEU-4 de 44.3 en el conjunto de datos de MS COCO. Con el SACM, el número de parámetros se reduce a 108M, que es aproximadamente 1/4 del modelo original YOLOv3-LSTM con 430M parámetros. Específicamente, en comparación con mPLUG con 510M parámetros, que es uno de los métodos SOTA, el método propuesto puede lograr casi los mismos puntajes BLEU-4, pero el número de parámetros es un 78% menor que el de mPLUG.
Descripción
La subtitulación de imágenes es un problema desafiante de IA que conecta la visión por computadora y el procesamiento del lenguaje natural. Muchos modelos de aprendizaje profundo (DL) han sido propuestos en la literatura para resolver este problema. Hasta ahora, la principal preocupación de la subtitulación de imágenes se ha centrado en aumentar la precisión de generar frases de estilo humano para describir las imágenes dadas. Como resultado, los modelos de última generación (SOTA) a menudo son demasiado caros para implementarse en dispositivos computacionalmente débiles. En contraste, la principal preocupación de este documento es mantener un equilibrio entre el rendimiento y el costo. Con este propósito, proponemos utilizar un modelo de DL pre-entrenado para la detección de objetos para codificar la imagen dada de modo que las características de varios objetos puedan extraerse simultáneamente. También proponemos agregar un módulo convolucional ajustable en tamaño (SACM) antes de decodificar las características en frases. Los resultados experimentales muestran que el modelo con el SACM ajustado adecuadamente podría alcanzar un puntaje BLEU-1 de 82.3 y un puntaje BLEU-4 de 43.9 en el conjunto de datos de Flickr 8K, y un puntaje BLEU-1 de 83.1 y un puntaje BLEU-4 de 44.3 en el conjunto de datos de MS COCO. Con el SACM, el número de parámetros se reduce a 108M, que es aproximadamente 1/4 del modelo original YOLOv3-LSTM con 430M parámetros. Específicamente, en comparación con mPLUG con 510M parámetros, que es uno de los métodos SOTA, el método propuesto puede lograr casi los mismos puntajes BLEU-4, pero el número de parámetros es un 78% menor que el de mPLUG.