Mejorando la precisión de un modelo de clasificación de imágenes utilizando el aprendizaje por transferencia entre modalidades

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la precisión de un modelo de clasificación de imágenes utilizando el aprendizaje por transferencia entre modalidades

Autores: Liu, Jiaqi; Chui, Kwok Tai; Lee, Lap-Kei

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Mejorando la precisión de un modelo de clasificación de imágenes utilizando el aprendizaje por transferencia entre modalidades

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo

Aprendizaje por transferencia

Aprendizaje por transferencia de modalidad cruzada

Clasificación de imágenes

Hiperparámetros

Optimizadores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones

Aplicar algoritmos de aprendizaje profundo (DL) para tareas de clasificación de imágenes se vuelve más desafiante con datos de entrenamiento insuficientes. El aprendizaje por transferencia (TL) se ha propuesto para abordar estos problemas. En teoría, TL solo requiere transferir una pequeña cantidad de conocimiento a la tarea objetivo, pero el aprendizaje por transferencia tradicional a menudo requiere la presencia de características iguales o similares en los dominios fuente y objetivo. El aprendizaje por transferencia de modalidad cruzada (CMTL) resuelve este problema al aprender conocimientos en un dominio fuente completamente diferente al dominio objetivo, a menudo utilizando un dominio fuente con una gran cantidad de datos, lo que ayuda al modelo a aprender más características. La mayoría de las investigaciones existentes sobre CMTL se han centrado en la transferencia de imagen a imagen. En este documento, el problema de CMTL se formula desde el dominio del texto al dominio de la imagen. Nuestro estudio comenzó entrenando dos modelos pre-entrenados por separado en los dominios del texto y la imagen para obtener la estructura de la red. El conocimiento de los dos modelos pre-entrenados se transfirió a través de CMTL para obtener un nuevo modelo híbrido (combinando los modelos BERT y BEiT). A continuación, se utilizaron GridSearchCV y validación cruzada de 5 pliegues para identificar la combinación más adecuada de hiperparámetros (tamaño de lote y tasa de aprendizaje) y optimizadores (SGDM y ADAM) para nuestro modelo. Para evaluar su impacto, se utilizaron 48 hiperparámetros de dos tuplas y dos optimizadores conocidos. Las métricas de evaluación de rendimiento fueron precisión de validación, puntuación F1, precisión y recuperación. El estudio de abstracción confirma que el modelo híbrido mejoró la precisión en un 12.8% en comparación con el modelo BEiT original. Además, los resultados muestran que estos dos hiperparámetros pueden impactar significativamente en el rendimiento del modelo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro