logo móvil
Contáctanos

Lw-vit: el modelo transformador de visión ligero aplicado en el reconocimiento de caracteres chinos manuscritos sin conexión

Autores: Geng, Shiyong; Zhu, Zongnan; Wang, Zhida; Dan, Yongping; Li, Hengyi

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Lw-vit: el modelo transformador de visión ligero aplicado en el reconocimiento de caracteres chinos manuscritos sin conexión


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelo Transformer
Tareas de visión por computadora
Modelo Vision Transformer (ViT)
Modelo Vision Transformer ligero (LW-ViT)
Parámetros
FLOPs

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 46

Citaciones: Sin citaciones


Descripción
En los últimos años, el modelo transformer ha sido ampliamente utilizado en tareas de visión por computadora y ha logrado resultados impresionantes. Desafortunadamente, estos modelos basados en transformer tienen la desventaja común de tener muchos parámetros y una gran huella de memoria, lo que dificulta su implementación en dispositivos móviles como redes neuronales convolucionales ligeras. Para abordar estos problemas, se propone un modelo Vision Transformer (ViT), llamado modelo Vision Transformer ligero (LW-ViT), para reducir la complejidad del modelo basado en transformer. El modelo se aplica al reconocimiento de caracteres chinos manuscritos sin conexión. El diseño del modelo LW-ViT está inspirado en MobileViT. El modelo ViT ligero reduce el número de parámetros y las FLOPs al reducir el número de bloques transformer y la capa MV2 basada en el marco general del modelo MobileViT. El número de parámetros y FLOPs para el modelo LW-ViT fue de 0.48 millones y 0.22 G, respectivamente, y finalmente logró una alta precisión de reconocimiento del 95.8% en el conjunto de datos. Además, en comparación con el modelo MobileViT, el número de parámetros se redujo en un 53.8% y las FLOPs se redujeron en un 18.5%. Los resultados experimentales muestran que el modelo LW-ViT tiene un bajo número de parámetros, demostrando la corrección y viabilidad del modelo propuesto.

Otros recursos que podrían interesarte

Temas Virtualpro