Optimizando el Reconocimiento de Texto en Dibujos Mecánicos: Un Enfoque Integral
Autores: Toro, Javier Villena; Tarkian, Mehdi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Optimizando el Reconocimiento de Texto en Dibujos Mecánicos: Un Enfoque Integral
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Digitalización
Dibujos de ingeniería
OCR
Procesamiento de imágenes
Extracción de información
Modelos de lenguaje visual
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
La digitalización de los dibujos de ingeniería es un paso fundamental hacia la automatización y mejora de la eficiencia de los sistemas de diseño y fabricación de productos (PDMS). Este estudio presenta eDOCr2, un marco que combina OCR tradicional y procesamiento de imágenes para extraer información estructurada de dibujos mecánicos. Segmenta los dibujos en elementos clave, como bloques de información, dimensiones y marcos de control de características, logrando un recuerdo de texto del 93.75% y una tasa de error de caracteres (CER) por debajo del 1% en un benchmark con dibujos de diferentes fuentes. Para mejorar la comprensión semántica y el razonamiento, eDOCr2 integra modelos de lenguaje visual (Qwen2-VL-7B y GPT-4o) después de la segmentación para verificar, filtrar o recuperar información. Esta integración permite aplicaciones de PDMS como la validación automatizada del diseño, el control de calidad o la evaluación de la fabricación. El código está disponible en Github.
Descripción
La digitalización de los dibujos de ingeniería es un paso fundamental hacia la automatización y mejora de la eficiencia de los sistemas de diseño y fabricación de productos (PDMS). Este estudio presenta eDOCr2, un marco que combina OCR tradicional y procesamiento de imágenes para extraer información estructurada de dibujos mecánicos. Segmenta los dibujos en elementos clave, como bloques de información, dimensiones y marcos de control de características, logrando un recuerdo de texto del 93.75% y una tasa de error de caracteres (CER) por debajo del 1% en un benchmark con dibujos de diferentes fuentes. Para mejorar la comprensión semántica y el razonamiento, eDOCr2 integra modelos de lenguaje visual (Qwen2-VL-7B y GPT-4o) después de la segmentación para verificar, filtrar o recuperar información. Esta integración permite aplicaciones de PDMS como la validación automatizada del diseño, el control de calidad o la evaluación de la fabricación. El código está disponible en Github.