Lw-vit: el modelo transformador de visión ligero aplicado en el reconocimiento de caracteres chinos manuscritos sin conexión

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Lw-vit: el modelo transformador de visión ligero aplicado en el reconocimiento de caracteres chinos manuscritos sin conexión

Autores: Geng, Shiyong; Zhu, Zongnan; Wang, Zhida; Dan, Yongping; Li, Hengyi

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Lw-vit: el modelo transformador de visión ligero aplicado en el reconocimiento de caracteres chinos manuscritos sin conexión

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Modelo Transformer

Tareas de visión por computadora

Modelo Vision Transformer (ViT)

Modelo Vision Transformer ligero (LW-ViT)

Parámetros

FLOPs

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 46

Citaciones: Sin citaciones

En los últimos años, el modelo transformer ha sido ampliamente utilizado en tareas de visión por computadora y ha logrado resultados impresionantes. Desafortunadamente, estos modelos basados en transformer tienen la desventaja común de tener muchos parámetros y una gran huella de memoria, lo que dificulta su implementación en dispositivos móviles como redes neuronales convolucionales ligeras. Para abordar estos problemas, se propone un modelo Vision Transformer (ViT), llamado modelo Vision Transformer ligero (LW-ViT), para reducir la complejidad del modelo basado en transformer. El modelo se aplica al reconocimiento de caracteres chinos manuscritos sin conexión. El diseño del modelo LW-ViT está inspirado en MobileViT. El modelo ViT ligero reduce el número de parámetros y las FLOPs al reducir el número de bloques transformer y la capa MV2 basada en el marco general del modelo MobileViT. El número de parámetros y FLOPs para el modelo LW-ViT fue de 0.48 millones y 0.22 G, respectivamente, y finalmente logró una alta precisión de reconocimiento del 95.8% en el conjunto de datos. Además, en comparación con el modelo MobileViT, el número de parámetros se redujo en un 53.8% y las FLOPs se redujeron en un 18.5%. Los resultados experimentales muestran que el modelo LW-ViT tiene un bajo número de parámetros, demostrando la corrección y viabilidad del modelo propuesto.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro