logo móvil
Contáctanos

Reconocimiento de texto de marca que combina SwinTransformer y mecanismos de característica-consulta

Autores: Zhou, Boxiu; Wang, Xiuhui; Zhou, Wenchao; Li, Longwen

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Reconocimiento de texto de marca que combina SwinTransformer y mecanismos de característica-consulta


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de texto de marca
Desafíos
SwinCornerTR
Red de extracción de características
SwinTransformer
EFPN

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones


Descripción
La tarea de reconocimiento de texto de marcas es un componente fundamental del reconocimiento de texto de escenas (STR), que actualmente enfrenta una serie de desafíos, incluida la presencia de texto desordenado, irregular o curvo, así como texto distorsionado o rotado. En aplicaciones como la detección de infracciones de marcas comerciales y el análisis de los efectos de la marca, la diversificación de fuentes artísticas en marcas comerciales y la complejidad de las superficies de productos donde se encuentran las marcas comerciales plantean importantes desafíos para la investigación relevante. Para abordar estos problemas, este documento propone un nuevo marco de reconocimiento llamado SwinCornerTR, que tiene como objetivo mejorar la precisión y la robustez del reconocimiento de texto de marcas comerciales. En primer lugar, se propone una red de extracción de características novedosa basada en SwinTransformer con EFPN (red de pirámide de características mejorada). Al incorporar SwinTransformer como columna vertebral, se logra una captura eficiente de la información global en las imágenes de marcas comerciales a través del mecanismo de autoatención y el módulo de pirámide de características mejorado, proporcionando representaciones de características más precisas y expresivas para la extracción de texto posterior. Luego, durante la etapa de codificación, se diseña un algoritmo novedoso de recuperación de puntos característicos basado en la detección de esquinas. Se presenta el detector de esquinas rápido basado en OTSU para generar un mapa de esquinas, logrando una detección eficiente y precisa de esquinas. Además, en la fase de codificación, se introduce un mecanismo de recuperación de puntos característicos basado en la detección de esquinas para lograr la selección prioritaria de regiones clave, eliminando las líneas de carácter a carácter y suprimiendo la interferencia de fondo. Finalmente, realizamos experimentos extensos en dos conjuntos de datos de referencia de acceso abierto, SVT y CUTE80, así como un conjunto de datos de marcas comerciales autónomo, para evaluar la efectividad del método propuesto. Nuestros resultados mostraron que el método propuesto logró precisión del 92.9%, 92.3% y 84.8%, respectivamente, en estos conjuntos de datos. Estos resultados demuestran la efectividad y robustez del método propuesto en el análisis de datos de marcas comerciales.

Otros recursos que podrían interesarte

Temas Virtualpro