HierFinRAG-RAG Multimodal Jerárquico para la Comprensión de Documentos Financieros
Autores: Dang, Quang-Vinh; Nguyen, Ngoc-Son-An; Vo, Thi-Bich-Diem
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
HierFinRAG-RAG Multimodal Jerárquico para la Comprensión de Documentos Financieros
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Documento financiero
Modelos de lenguaje grandes
Generación aumentada por recuperación
Marco multimodal jerárquico
Datos tabulares y textuales
Fusión simbólico-neuronal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La comprensión de documentos financieros sigue siendo un desafío crítico para los Modelos de Lenguaje Grande, principalmente debido a la compleja interacción entre el texto narrativo y las tablas numéricas estructuradas. Los sistemas existentes de Generación Aumentada por Recuperación (RAG) a menudo tratan estas modalidades de forma aislada, lo que lleva a fallos significativos en tareas que requieren razonamiento conjunto. Este estudio presenta HierFinRAG, un nuevo marco multimodal jerárquico diseñado para unificar el procesamiento de datos tabulares y textuales. Nuestro enfoque emplea una Red Neuronal de Grafo Tabla-Texto (TTGNN) para modelar explícitamente las dependencias semánticas y estructurales entre las celdas de la tabla y el texto correspondiente, junto con un módulo de Fusión Simbólica-Neuronal que dirige consultas entre un generador neuronal y una calculadora simbólica para operaciones aritméticas precisas. Evaluamos el sistema en los conjuntos de datos FinQA y FinanceBench, comparando el rendimiento con fuertes líneas base, incluyendo Vanilla RAG y GPT-4o con Intérprete de Código. Los resultados demuestran que HierFinRAG logra una puntuación de Coincidencia Exacta del 82.5% en FinQA, superando la mejor línea base por 6.5 puntos porcentuales, mientras mantiene una latencia de inferencia 3.5 veces más rápida que los enfoques agentivos. Estos hallazgos indican que integrar la conciencia estructural jerárquica con el razonamiento híbrido mejora significativamente la precisión y la interpretabilidad de los sistemas de inteligencia artificial financiera.
Descripción
La comprensión de documentos financieros sigue siendo un desafío crítico para los Modelos de Lenguaje Grande, principalmente debido a la compleja interacción entre el texto narrativo y las tablas numéricas estructuradas. Los sistemas existentes de Generación Aumentada por Recuperación (RAG) a menudo tratan estas modalidades de forma aislada, lo que lleva a fallos significativos en tareas que requieren razonamiento conjunto. Este estudio presenta HierFinRAG, un nuevo marco multimodal jerárquico diseñado para unificar el procesamiento de datos tabulares y textuales. Nuestro enfoque emplea una Red Neuronal de Grafo Tabla-Texto (TTGNN) para modelar explícitamente las dependencias semánticas y estructurales entre las celdas de la tabla y el texto correspondiente, junto con un módulo de Fusión Simbólica-Neuronal que dirige consultas entre un generador neuronal y una calculadora simbólica para operaciones aritméticas precisas. Evaluamos el sistema en los conjuntos de datos FinQA y FinanceBench, comparando el rendimiento con fuertes líneas base, incluyendo Vanilla RAG y GPT-4o con Intérprete de Código. Los resultados demuestran que HierFinRAG logra una puntuación de Coincidencia Exacta del 82.5% en FinQA, superando la mejor línea base por 6.5 puntos porcentuales, mientras mantiene una latencia de inferencia 3.5 veces más rápida que los enfoques agentivos. Estos hallazgos indican que integrar la conciencia estructural jerárquica con el razonamiento híbrido mejora significativamente la precisión y la interpretabilidad de los sistemas de inteligencia artificial financiera.