Lw-vit: el modelo transformador de visión ligero aplicado en el reconocimiento de caracteres chinos manuscritos sin conexión
Autores: Geng, Shiyong; Zhu, Zongnan; Wang, Zhida; Dan, Yongping; Li, Hengyi
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Lw-vit: el modelo transformador de visión ligero aplicado en el reconocimiento de caracteres chinos manuscritos sin conexión
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelo Transformer
Tareas de visión por computadora
Modelo Vision Transformer (ViT)
Modelo Vision Transformer ligero (LW-ViT)
Parámetros
FLOPs
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 46
Citaciones: Sin citaciones
En los últimos años, el modelo transformer ha sido ampliamente utilizado en tareas de visión por computadora y ha logrado resultados impresionantes. Desafortunadamente, estos modelos basados en transformer tienen la desventaja común de tener muchos parámetros y una gran huella de memoria, lo que dificulta su implementación en dispositivos móviles como redes neuronales convolucionales ligeras. Para abordar estos problemas, se propone un modelo Vision Transformer (ViT), llamado modelo Vision Transformer ligero (LW-ViT), para reducir la complejidad del modelo basado en transformer. El modelo se aplica al reconocimiento de caracteres chinos manuscritos sin conexión. El diseño del modelo LW-ViT está inspirado en MobileViT. El modelo ViT ligero reduce el número de parámetros y las FLOPs al reducir el número de bloques transformer y la capa MV2 basada en el marco general del modelo MobileViT. El número de parámetros y FLOPs para el modelo LW-ViT fue de 0.48 millones y 0.22 G, respectivamente, y finalmente logró una alta precisión de reconocimiento del 95.8% en el conjunto de datos. Además, en comparación con el modelo MobileViT, el número de parámetros se redujo en un 53.8% y las FLOPs se redujeron en un 18.5%. Los resultados experimentales muestran que el modelo LW-ViT tiene un bajo número de parámetros, demostrando la corrección y viabilidad del modelo propuesto.
Descripción
En los últimos años, el modelo transformer ha sido ampliamente utilizado en tareas de visión por computadora y ha logrado resultados impresionantes. Desafortunadamente, estos modelos basados en transformer tienen la desventaja común de tener muchos parámetros y una gran huella de memoria, lo que dificulta su implementación en dispositivos móviles como redes neuronales convolucionales ligeras. Para abordar estos problemas, se propone un modelo Vision Transformer (ViT), llamado modelo Vision Transformer ligero (LW-ViT), para reducir la complejidad del modelo basado en transformer. El modelo se aplica al reconocimiento de caracteres chinos manuscritos sin conexión. El diseño del modelo LW-ViT está inspirado en MobileViT. El modelo ViT ligero reduce el número de parámetros y las FLOPs al reducir el número de bloques transformer y la capa MV2 basada en el marco general del modelo MobileViT. El número de parámetros y FLOPs para el modelo LW-ViT fue de 0.48 millones y 0.22 G, respectivamente, y finalmente logró una alta precisión de reconocimiento del 95.8% en el conjunto de datos. Además, en comparación con el modelo MobileViT, el número de parámetros se redujo en un 53.8% y las FLOPs se redujeron en un 18.5%. Los resultados experimentales muestran que el modelo LW-ViT tiene un bajo número de parámetros, demostrando la corrección y viabilidad del modelo propuesto.