Extracción de conocimiento de LLMs para anotación escalable de datos históricos
Autores: Celli, Fabio; Mingazov, Dmitry
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Extracción de conocimiento de LLMs para anotación escalable de datos históricos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Enfoque novedoso
Extracción de conocimiento
Conjuntos de datos históricos
IA generativa
Granularidad de datos
Ingeniería de indicaciones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Este documento introduce un enfoque novedoso para extraer conocimiento de grandes modelos de lenguaje y generar conjuntos de datos históricos estructurados. Investigamos la viabilidad y limitaciones de esta técnica al comparar los datos generados con dos conjuntos de datos históricos anotados por humanos que abarcan desde el 10,000 a.C. hasta el 2000 d.C. Nuestros hallazgos demuestran que la inteligencia artificial generativa puede producir exitosamente anotaciones históricas para una amplia gama de variables, incluyendo factores políticos, económicos y sociales. Sin embargo, el rendimiento del modelo varía en diferentes regiones, influenciado por factores como la granularidad de los datos, la complejidad histórica y las limitaciones del modelo. Destacamos la importancia de instrucciones de alta calidad y una ingeniería de indicaciones efectiva para mitigar problemas como las alucinaciones y mejorar la precisión de las anotaciones generadas. La aplicación exitosa de esta técnica puede acelerar significativamente el desarrollo de conjuntos de datos históricos estructurados confiables, con un potencial impacto alto en la historia comparativa y computacional.
Descripción
Este documento introduce un enfoque novedoso para extraer conocimiento de grandes modelos de lenguaje y generar conjuntos de datos históricos estructurados. Investigamos la viabilidad y limitaciones de esta técnica al comparar los datos generados con dos conjuntos de datos históricos anotados por humanos que abarcan desde el 10,000 a.C. hasta el 2000 d.C. Nuestros hallazgos demuestran que la inteligencia artificial generativa puede producir exitosamente anotaciones históricas para una amplia gama de variables, incluyendo factores políticos, económicos y sociales. Sin embargo, el rendimiento del modelo varía en diferentes regiones, influenciado por factores como la granularidad de los datos, la complejidad histórica y las limitaciones del modelo. Destacamos la importancia de instrucciones de alta calidad y una ingeniería de indicaciones efectiva para mitigar problemas como las alucinaciones y mejorar la precisión de las anotaciones generadas. La aplicación exitosa de esta técnica puede acelerar significativamente el desarrollo de conjuntos de datos históricos estructurados confiables, con un potencial impacto alto en la historia comparativa y computacional.