TextDC: explorando la detección de texto multidimensional a través de un nuevo punto de referencia y solución
Autores: Zhou, Fenfen; Cai, Yuanqiang; Tian, Yingjie
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
TextDC: explorando la detección de texto multidimensional a través de un nuevo punto de referencia y solución
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección de texto
Redes neuronales profundas
Descripciones de texto de múltiples tipos
Tarea TextDC
Conjunto de datos Text3C
Enfoques de detección
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
La detección de texto ha sido significativamente mejorada por el desarrollo de redes neuronales profundas, pero la mayoría de los métodos existentes se centran en un solo tipo de instancia de texto (es decir, texto superpuesto, texto en capas, texto de escena). En este documento, ampliamos la tarea de detección de texto de una sola dimensión a múltiples dimensiones, proporcionando así descripciones de texto de varios tipos para el análisis de escenas y contenido de videos. Específicamente, establecemos una nueva tarea para detectar y clasificar instancias de texto simultáneamente, denominada TextDC. Hasta donde sabemos, los benchmarks existentes no pueden cumplir con los requisitos de la tarea propuesta. Con este fin, recopilamos un conjunto de datos de detección y clasificación de texto a gran escala, llamado Text3C, que está anotado con etiquetas multilingües, información de ubicación y categorías de texto. Junto con el conjunto de datos recopilado, introducimos una métrica de evaluación estricta y de múltiples etapas, que penaliza los enfoques de detección por instancias de texto faltantes, detección de falsos positivos, cajas de ubicación inexactas y categorías de texto erróneas, desarrollando un nuevo benchmark para la tarea TextDC propuesta. Además, ampliamos varios detectores de vanguardia modificando la cabeza de predicción para resolver la nueva tarea. Luego, se diseña y formula un marco de detección y clasificación de texto generalizado. Se realizan experimentos extensos utilizando los métodos actualizados en el benchmark establecido para verificar la solubilidad de la tarea propuesta, los desafíos del conjunto de datos y la efectividad de la solución.
Descripción
La detección de texto ha sido significativamente mejorada por el desarrollo de redes neuronales profundas, pero la mayoría de los métodos existentes se centran en un solo tipo de instancia de texto (es decir, texto superpuesto, texto en capas, texto de escena). En este documento, ampliamos la tarea de detección de texto de una sola dimensión a múltiples dimensiones, proporcionando así descripciones de texto de varios tipos para el análisis de escenas y contenido de videos. Específicamente, establecemos una nueva tarea para detectar y clasificar instancias de texto simultáneamente, denominada TextDC. Hasta donde sabemos, los benchmarks existentes no pueden cumplir con los requisitos de la tarea propuesta. Con este fin, recopilamos un conjunto de datos de detección y clasificación de texto a gran escala, llamado Text3C, que está anotado con etiquetas multilingües, información de ubicación y categorías de texto. Junto con el conjunto de datos recopilado, introducimos una métrica de evaluación estricta y de múltiples etapas, que penaliza los enfoques de detección por instancias de texto faltantes, detección de falsos positivos, cajas de ubicación inexactas y categorías de texto erróneas, desarrollando un nuevo benchmark para la tarea TextDC propuesta. Además, ampliamos varios detectores de vanguardia modificando la cabeza de predicción para resolver la nueva tarea. Luego, se diseña y formula un marco de detección y clasificación de texto generalizado. Se realizan experimentos extensos utilizando los métodos actualizados en el benchmark establecido para verificar la solubilidad de la tarea propuesta, los desafíos del conjunto de datos y la efectividad de la solución.