logo móvil
Contáctanos

Decodificación de Diagramas Técnicos: Una Encuesta de Métodos de IA para la Extracción y Comprensión del Contenido de Imágenes

Autores: Bray, Nick; Hempel, Michael; Boeding, Matthew; Sharif, Hamid

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Decodificación de Diagramas Técnicos: Una Encuesta de Métodos de IA para la Extracción y Comprensión del Contenido de Imágenes


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Inteligencia artificial
IA generativa
Modelos de IA multimodal
Reconocimiento Óptico de Caracteres
Modelos de aprendizaje profundo
Diagramas complejos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Con la inteligencia artificial (IA) aumentando rápidamente en popularidad y presencia en la vida cotidiana, se están explorando nuevas aplicaciones que utilizan IA en prácticamente todos los dominios, desde la banca y la atención médica hasta la ciberseguridad y la IA generativa para la creación de contenido de imágenes, voz y video. Con esta tendencia surge una necesidad inherente de aumentar las capacidades de IA. Una piedra angular de las aplicaciones de IA es la capacidad de la IA generativa para consumir documentos y utilizar su contenido para responder preguntas, generar nuevo contenido, correlacionarlo con otras fuentes de datos, y más. Ya no limitados solo al texto, ahora aprovechamos modelos de IA multimodal para ayudarnos a entender elementos visuales dentro de los documentos, como imágenes, tablas, figuras y gráficos. Dentro de este ámbito, las capacidades se han expandido exponencialmente desde los enfoques tradicionales de Reconocimiento Óptico de Caracteres (OCR) hacia la utilización cada vez mayor de modelos de IA complejos para el análisis y comprensión de contenido visual. Los enfoques modernos, especialmente aquellos que aprovechan la IA, ahora se centran en interpretar diagramas más complejos, como diagramas de flujo, diagramas de bloques, diagramas de Lenguaje de Modelado Unificado (UML), esquemas eléctricos y diagramas de temporización. Estos tipos de diagramas combinan texto, símbolos y un diseño estructurado, lo que los hace desafiantes de analizar y comprender utilizando técnicas convencionales. Este documento presenta un análisis histórico y una encuesta completa de la literatura científica que explora este dominio de comprensión visual de ilustraciones técnicas complejas y diagramas. Exploramos el uso de modelos de aprendizaje profundo, incluidos redes neuronales convolucionales (CNN), redes neuronales recurrentes (RNN) y arquitecturas basadas en transformadores. Estos modelos, junto con OCR, permiten la extracción de información tanto textual como estructural de fuentes visualmente complejas. A pesar de estos avances, sin embargo, quedan numerosos desafíos. Estos van desde alucinaciones, donde el sistema de extracción de contenido produce salidas no fundamentadas en la imagen fuente, lo que lleva a interpretaciones erróneas, hasta una falta de comprensión contextual de los elementos diagramáticos, como flechas, agrupaciones y jerarquía espacial. Esta encuesta se centra en cinco tipos clave de diagramas: diagramas de flujo, diagramas de bloques, diagramas UML, esquemas eléctricos y diagramas de temporización. Evalúa la efectividad, limitaciones y soluciones prácticas, tanto tradicionales como impulsadas por IA, que buscan permitir la extracción de información precisa y significativa de diagramas complejos de una manera que sea confiable y adecuada para aplicaciones de IA de alta precisión en el mundo real. Esta encuesta revela que prácticamente todos los enfoques luchan por extraer con precisión la información de diagramas técnicos. También ilustra un camino a seguir. Perseguir investigaciones para mejorar aún más su precisión es crucial para apoyar y habilitar diversas aplicaciones, incluyendo la respuesta a preguntas sobre documentos complejos y la Generación Aumentada por Recuperación (RAG), agentes de IA impulsados por documentos, aplicaciones de accesibilidad y automatización.

Otros recursos que podrían interesarte

Temas Virtualpro