logo móvil
Contáctanos

Mejorando la precisión de un modelo de clasificación de imágenes utilizando el aprendizaje por transferencia entre modalidades

Autores: Liu, Jiaqi; Chui, Kwok Tai; Lee, Lap-Kei

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Mejorando la precisión de un modelo de clasificación de imágenes utilizando el aprendizaje por transferencia entre modalidades


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo
Aprendizaje por transferencia
Aprendizaje por transferencia de modalidad cruzada
Clasificación de imágenes
Hiperparámetros
Optimizadores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones


Descripción
Aplicar algoritmos de aprendizaje profundo (DL) para tareas de clasificación de imágenes se vuelve más desafiante con datos de entrenamiento insuficientes. El aprendizaje por transferencia (TL) se ha propuesto para abordar estos problemas. En teoría, TL solo requiere transferir una pequeña cantidad de conocimiento a la tarea objetivo, pero el aprendizaje por transferencia tradicional a menudo requiere la presencia de características iguales o similares en los dominios fuente y objetivo. El aprendizaje por transferencia de modalidad cruzada (CMTL) resuelve este problema al aprender conocimientos en un dominio fuente completamente diferente al dominio objetivo, a menudo utilizando un dominio fuente con una gran cantidad de datos, lo que ayuda al modelo a aprender más características. La mayoría de las investigaciones existentes sobre CMTL se han centrado en la transferencia de imagen a imagen. En este documento, el problema de CMTL se formula desde el dominio del texto al dominio de la imagen. Nuestro estudio comenzó entrenando dos modelos pre-entrenados por separado en los dominios del texto y la imagen para obtener la estructura de la red. El conocimiento de los dos modelos pre-entrenados se transfirió a través de CMTL para obtener un nuevo modelo híbrido (combinando los modelos BERT y BEiT). A continuación, se utilizaron GridSearchCV y validación cruzada de 5 pliegues para identificar la combinación más adecuada de hiperparámetros (tamaño de lote y tasa de aprendizaje) y optimizadores (SGDM y ADAM) para nuestro modelo. Para evaluar su impacto, se utilizaron 48 hiperparámetros de dos tuplas y dos optimizadores conocidos. Las métricas de evaluación de rendimiento fueron precisión de validación, puntuación F1, precisión y recuperación. El estudio de abstracción confirma que el modelo híbrido mejoró la precisión en un 12.8% en comparación con el modelo BEiT original. Además, los resultados muestran que estos dos hiperparámetros pueden impactar significativamente en el rendimiento del modelo.

Otros recursos que podrían interesarte

Temas Virtualpro