De Píxeles a Perspectivas: Generación de Grafos de Conocimiento No Supervisada con Modelos de Lenguaje Grande
Autores: Chen, Lei; Chen, Zhenyu; Yang, Wei; Liu, Shi; Li, Yong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
De Píxeles a Perspectivas: Generación de Grafos de Conocimiento No Supervisada con Modelos de Lenguaje Grande
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Datos de imagen
Extracción de conocimiento
Representación
Metodología
Grafo de conocimiento
No supervisado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El papel de los datos de imagen en la extracción y representación del conocimiento se ha vuelto cada vez más significativo. Este estudio presenta una nueva metodología, denominada Imagen a Grafo a través de un Modelo de Lenguaje Grande (ImgGraph-LLM), que construye un grafo de conocimiento para cada imagen en un conjunto de datos. A diferencia de los métodos existentes que dependen de descripciones textuales o datos multimodales para construir un grafo de conocimiento integral, nuestro enfoque se centra únicamente en datos de imágenes individuales no etiquetadas, representando una forma distinta de construcción de grafos de conocimiento no supervisada. Para abordar el desafío de generar un grafo de conocimiento a partir de imágenes individuales de manera no supervisada, primero diseñamos dos operaciones auto-supervisadas para generar datos de entrenamiento a partir de imágenes no etiquetadas. Luego proponemos un proceso de ajuste fino iterativo que utiliza esta información auto-supervisada, permitiendo que el LLM ajustado reconozca los tripletas necesarias para construir el grafo de conocimiento. Para mejorar la precisión de la extracción de tripletas, introducimos estrategias de filtrado que eliminan de manera efectiva los datos de entrenamiento de baja confianza. Finalmente, los experimentos en dos conjuntos de datos del mundo real a gran escala demuestran la superioridad de nuestro modelo propuesto.
Descripción
El papel de los datos de imagen en la extracción y representación del conocimiento se ha vuelto cada vez más significativo. Este estudio presenta una nueva metodología, denominada Imagen a Grafo a través de un Modelo de Lenguaje Grande (ImgGraph-LLM), que construye un grafo de conocimiento para cada imagen en un conjunto de datos. A diferencia de los métodos existentes que dependen de descripciones textuales o datos multimodales para construir un grafo de conocimiento integral, nuestro enfoque se centra únicamente en datos de imágenes individuales no etiquetadas, representando una forma distinta de construcción de grafos de conocimiento no supervisada. Para abordar el desafío de generar un grafo de conocimiento a partir de imágenes individuales de manera no supervisada, primero diseñamos dos operaciones auto-supervisadas para generar datos de entrenamiento a partir de imágenes no etiquetadas. Luego proponemos un proceso de ajuste fino iterativo que utiliza esta información auto-supervisada, permitiendo que el LLM ajustado reconozca los tripletas necesarias para construir el grafo de conocimiento. Para mejorar la precisión de la extracción de tripletas, introducimos estrategias de filtrado que eliminan de manera efectiva los datos de entrenamiento de baja confianza. Finalmente, los experimentos en dos conjuntos de datos del mundo real a gran escala demuestran la superioridad de nuestro modelo propuesto.