Extracción de Información Generativa Consciente de la Estructura a través de la Alineación del Espacio de Características
Autores: Li, Yuanqing; Tao, Chen; Zhang, Baoyu; Zhang, Weishan
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Extracción de Información Generativa Consciente de la Estructura a través de la Alineación del Espacio de Características
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje grandes
Estructuras sintácticas
Relaciones de entidades
Método de extracción generativa
Conciencia de topología heterogénea
Alineación espacial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de lenguaje grandes (LLMs) enfrentan dificultades para aprovechar las estructuras sintácticas y las relaciones de entidades incrustadas en el texto para la extracción de información de documentos largos. Para abordar este problema, este artículo propone un método de extracción generativa que integra la conciencia de topología heterogénea y la alineación espacial. El método primero extrae información sintáctica y de correferencia para construir un gráfico de documentos heterogéneo y emplea una red de mezcla de expertos para desacoplar y codificar características topológicas de múltiples tipos. Luego, se utiliza un mecanismo de proyección ortogonal de componentes y una estrategia de aprendizaje contrastivo gráfico-texto para alinear las características gráficas extraídas al espacio semántico subyacente del modelo de lenguaje con alta fidelidad. Además, el Codificador Consciente de Topología comprime las características globales en indicaciones estructurales de longitud fija para guiar la generación de texto. Los experimentos en los conjuntos de datos ACE2005, WikiEvents y DuEE demostraron que el método propuesto logró un rendimiento de vanguardia en tareas de extracción de información. En consecuencia, estos resultados sugieren que el marco propuesto es un enfoque prometedor para la extracción de información compleja a través de LLMs base de diferentes escalas.
Descripción
Los modelos de lenguaje grandes (LLMs) enfrentan dificultades para aprovechar las estructuras sintácticas y las relaciones de entidades incrustadas en el texto para la extracción de información de documentos largos. Para abordar este problema, este artículo propone un método de extracción generativa que integra la conciencia de topología heterogénea y la alineación espacial. El método primero extrae información sintáctica y de correferencia para construir un gráfico de documentos heterogéneo y emplea una red de mezcla de expertos para desacoplar y codificar características topológicas de múltiples tipos. Luego, se utiliza un mecanismo de proyección ortogonal de componentes y una estrategia de aprendizaje contrastivo gráfico-texto para alinear las características gráficas extraídas al espacio semántico subyacente del modelo de lenguaje con alta fidelidad. Además, el Codificador Consciente de Topología comprime las características globales en indicaciones estructurales de longitud fija para guiar la generación de texto. Los experimentos en los conjuntos de datos ACE2005, WikiEvents y DuEE demostraron que el método propuesto logró un rendimiento de vanguardia en tareas de extracción de información. En consecuencia, estos resultados sugieren que el marco propuesto es un enfoque prometedor para la extracción de información compleja a través de LLMs base de diferentes escalas.