Mantener un mejor equilibrio entre rendimiento y costo para la descripción de imágenes mediante un módulo convolucional ajustable en tamaño

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mantener un mejor equilibrio entre rendimiento y costo para la descripción de imágenes mediante un módulo convolucional ajustable en tamaño

Autores: Lyu, Yan; Liu, Yong; Zhao, Qiangfu

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Mantener un mejor equilibrio entre rendimiento y costo para la descripción de imágenes mediante un módulo convolucional ajustable en tamaño

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Subtítulos de imágenes

Modelos de aprendizaje profundo

Detección de objetos

Módulo convolucional

Puntuaciones BLEU

Parámetros

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

La subtitulación de imágenes es un problema desafiante de IA que conecta la visión por computadora y el procesamiento del lenguaje natural. Muchos modelos de aprendizaje profundo (DL) han sido propuestos en la literatura para resolver este problema. Hasta ahora, la principal preocupación de la subtitulación de imágenes se ha centrado en aumentar la precisión de generar frases de estilo humano para describir las imágenes dadas. Como resultado, los modelos de última generación (SOTA) a menudo son demasiado caros para implementarse en dispositivos computacionalmente débiles. En contraste, la principal preocupación de este documento es mantener un equilibrio entre el rendimiento y el costo. Con este propósito, proponemos utilizar un modelo de DL pre-entrenado para la detección de objetos para codificar la imagen dada de modo que las características de varios objetos puedan extraerse simultáneamente. También proponemos agregar un módulo convolucional ajustable en tamaño (SACM) antes de decodificar las características en frases. Los resultados experimentales muestran que el modelo con el SACM ajustado adecuadamente podría alcanzar un puntaje BLEU-1 de 82.3 y un puntaje BLEU-4 de 43.9 en el conjunto de datos de Flickr 8K, y un puntaje BLEU-1 de 83.1 y un puntaje BLEU-4 de 44.3 en el conjunto de datos de MS COCO. Con el SACM, el número de parámetros se reduce a 108M, que es aproximadamente 1/4 del modelo original YOLOv3-LSTM con 430M parámetros. Específicamente, en comparación con mPLUG con 510M parámetros, que es uno de los métodos SOTA, el método propuesto puede lograr casi los mismos puntajes BLEU-4, pero el número de parámetros es un 78% menor que el de mPLUG.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro