Mejorando la precisión de un modelo de clasificación de imágenes utilizando el aprendizaje por transferencia entre modalidades
Autores: Liu, Jiaqi; Chui, Kwok Tai; Lee, Lap-Kei
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorando la precisión de un modelo de clasificación de imágenes utilizando el aprendizaje por transferencia entre modalidades
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo
Aprendizaje por transferencia
Aprendizaje por transferencia de modalidad cruzada
Clasificación de imágenes
Hiperparámetros
Optimizadores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Aplicar algoritmos de aprendizaje profundo (DL) para tareas de clasificación de imágenes se vuelve más desafiante con datos de entrenamiento insuficientes. El aprendizaje por transferencia (TL) se ha propuesto para abordar estos problemas. En teoría, TL solo requiere transferir una pequeña cantidad de conocimiento a la tarea objetivo, pero el aprendizaje por transferencia tradicional a menudo requiere la presencia de características iguales o similares en los dominios fuente y objetivo. El aprendizaje por transferencia de modalidad cruzada (CMTL) resuelve este problema al aprender conocimientos en un dominio fuente completamente diferente al dominio objetivo, a menudo utilizando un dominio fuente con una gran cantidad de datos, lo que ayuda al modelo a aprender más características. La mayoría de las investigaciones existentes sobre CMTL se han centrado en la transferencia de imagen a imagen. En este documento, el problema de CMTL se formula desde el dominio del texto al dominio de la imagen. Nuestro estudio comenzó entrenando dos modelos pre-entrenados por separado en los dominios del texto y la imagen para obtener la estructura de la red. El conocimiento de los dos modelos pre-entrenados se transfirió a través de CMTL para obtener un nuevo modelo híbrido (combinando los modelos BERT y BEiT). A continuación, se utilizaron GridSearchCV y validación cruzada de 5 pliegues para identificar la combinación más adecuada de hiperparámetros (tamaño de lote y tasa de aprendizaje) y optimizadores (SGDM y ADAM) para nuestro modelo. Para evaluar su impacto, se utilizaron 48 hiperparámetros de dos tuplas y dos optimizadores conocidos. Las métricas de evaluación de rendimiento fueron precisión de validación, puntuación F1, precisión y recuperación. El estudio de abstracción confirma que el modelo híbrido mejoró la precisión en un 12.8% en comparación con el modelo BEiT original. Además, los resultados muestran que estos dos hiperparámetros pueden impactar significativamente en el rendimiento del modelo.
Descripción
Aplicar algoritmos de aprendizaje profundo (DL) para tareas de clasificación de imágenes se vuelve más desafiante con datos de entrenamiento insuficientes. El aprendizaje por transferencia (TL) se ha propuesto para abordar estos problemas. En teoría, TL solo requiere transferir una pequeña cantidad de conocimiento a la tarea objetivo, pero el aprendizaje por transferencia tradicional a menudo requiere la presencia de características iguales o similares en los dominios fuente y objetivo. El aprendizaje por transferencia de modalidad cruzada (CMTL) resuelve este problema al aprender conocimientos en un dominio fuente completamente diferente al dominio objetivo, a menudo utilizando un dominio fuente con una gran cantidad de datos, lo que ayuda al modelo a aprender más características. La mayoría de las investigaciones existentes sobre CMTL se han centrado en la transferencia de imagen a imagen. En este documento, el problema de CMTL se formula desde el dominio del texto al dominio de la imagen. Nuestro estudio comenzó entrenando dos modelos pre-entrenados por separado en los dominios del texto y la imagen para obtener la estructura de la red. El conocimiento de los dos modelos pre-entrenados se transfirió a través de CMTL para obtener un nuevo modelo híbrido (combinando los modelos BERT y BEiT). A continuación, se utilizaron GridSearchCV y validación cruzada de 5 pliegues para identificar la combinación más adecuada de hiperparámetros (tamaño de lote y tasa de aprendizaje) y optimizadores (SGDM y ADAM) para nuestro modelo. Para evaluar su impacto, se utilizaron 48 hiperparámetros de dos tuplas y dos optimizadores conocidos. Las métricas de evaluación de rendimiento fueron precisión de validación, puntuación F1, precisión y recuperación. El estudio de abstracción confirma que el modelo híbrido mejoró la precisión en un 12.8% en comparación con el modelo BEiT original. Además, los resultados muestran que estos dos hiperparámetros pueden impactar significativamente en el rendimiento del modelo.