Explorando la detección de texto en escenas resistente al estilo a través del aprendizaje consciente del estilo
Autores: Cai, Yuanqiang; Zhou, Fenfen; Yin, Ronghui
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Explorando la detección de texto en escenas resistente al estilo a través del aprendizaje consciente del estilo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Enfoques
Estrategia de entrenamiento
Red de aprendizaje consciente del estilo
Detección de texto
Resistente al estilo
Conjuntos de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Aunque los detectores de texto de escena actuales logran una precisión notable en diferentes y diversos estilos de conjuntos de datos al ajustar los modelos varias veces, estos enfoques son lentos y dificultan la generalización del modelo. Como tal, explorar una estrategia de entrenamiento que solo requiera entrenamiento una vez en todos los conjuntos de datos es una solución prometedora. Sin embargo, la falta de coincidencia de estilos de texto plantea desafíos para la precisión en dicho enfoque. Para mitigar estos problemas, proponemos una red de aprendizaje consciente del estilo (SLNText) para la detección de texto robusta al estilo en entornos no controlados. Esto incluye una cabeza consciente del estilo para distinguir los estilos de texto de las imágenes y una cabeza de selección dinámica para realizar la detección de imágenes con diferentes estilos de texto. SLNText se entrena solo una vez, logrando un rendimiento superior al aprender automáticamente de múltiples estilos de texto y superar el problema de falta de coincidencia de estilos inherente en enfoques de talla única. Al utilizar solo un conjunto de parámetros de red, nuestro método reduce significativamente el consumo de entrenamiento al tiempo que mantiene un rendimiento satisfactorio en varios estilos de conjuntos de datos. Nuestros extensos experimentos demuestran que SLNText logra un rendimiento satisfactorio en varios estilos de conjuntos de datos, mostrando su efectividad y eficiencia como una solución prometedora para la detección de texto de escena robusta al estilo.
Descripción
Aunque los detectores de texto de escena actuales logran una precisión notable en diferentes y diversos estilos de conjuntos de datos al ajustar los modelos varias veces, estos enfoques son lentos y dificultan la generalización del modelo. Como tal, explorar una estrategia de entrenamiento que solo requiera entrenamiento una vez en todos los conjuntos de datos es una solución prometedora. Sin embargo, la falta de coincidencia de estilos de texto plantea desafíos para la precisión en dicho enfoque. Para mitigar estos problemas, proponemos una red de aprendizaje consciente del estilo (SLNText) para la detección de texto robusta al estilo en entornos no controlados. Esto incluye una cabeza consciente del estilo para distinguir los estilos de texto de las imágenes y una cabeza de selección dinámica para realizar la detección de imágenes con diferentes estilos de texto. SLNText se entrena solo una vez, logrando un rendimiento superior al aprender automáticamente de múltiples estilos de texto y superar el problema de falta de coincidencia de estilos inherente en enfoques de talla única. Al utilizar solo un conjunto de parámetros de red, nuestro método reduce significativamente el consumo de entrenamiento al tiempo que mantiene un rendimiento satisfactorio en varios estilos de conjuntos de datos. Nuestros extensos experimentos demuestran que SLNText logra un rendimiento satisfactorio en varios estilos de conjuntos de datos, mostrando su efectividad y eficiencia como una solución prometedora para la detección de texto de escena robusta al estilo.