Aprovechando la IA Generativa en la Indexación de Documentos Cortos
Autores: Bouzid, Sara; Piron, Loïs
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprovechando la IA Generativa en la Indexación de Documentos Cortos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Eficiencia
Sistemas de recuperación de información
Representación de documentos
Indexación
Términos clave
IA generativa
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
La eficiencia de los sistemas de recuperación de información depende principalmente de la representación efectiva de los documentos durante el procesamiento de consultas. Esta representación se construye principalmente a partir de los términos relevantes de los documentos identificados y seleccionados durante su indexación, los cuales luego se utilizan para la recuperación. Sin embargo, cuando los documentos contienen solo algunas características, como en documentos cortos, la representación resultante puede ser pobre en información debido a la falta de términos de índice y su falta de relevancia. Aunque la representación de documentos puede enriquecerse utilizando técnicas como incrustaciones de palabras, estas técnicas requieren grandes conjuntos de datos preentrenados, que a menudo no están disponibles en el contexto de documentos cortos específicos de un dominio. Este estudio investiga un nuevo enfoque para enriquecer la representación de documentos durante la indexación utilizando IA generativa. En el enfoque propuesto, los términos relevantes extraídos de los documentos y preprocesados para la indexación se enriquecen con una lista de términos clave sugeridos por un gran modelo de lenguaje (LLM). Después de realizar una pequeña prueba de varios modelos de LLM de renombre para sugerencias de términos clave a partir de un conjunto de textos cortos, se eligió el modelo GPT-4o para experimentar con el enfoque de indexación propuesto. Los hallazgos de este estudio arrojaron resultados notables, demostrando que la IA generativa puede llenar eficientemente la brecha de conocimiento en la representación de documentos, independientemente de la técnica de recuperación utilizada.
Descripción
La eficiencia de los sistemas de recuperación de información depende principalmente de la representación efectiva de los documentos durante el procesamiento de consultas. Esta representación se construye principalmente a partir de los términos relevantes de los documentos identificados y seleccionados durante su indexación, los cuales luego se utilizan para la recuperación. Sin embargo, cuando los documentos contienen solo algunas características, como en documentos cortos, la representación resultante puede ser pobre en información debido a la falta de términos de índice y su falta de relevancia. Aunque la representación de documentos puede enriquecerse utilizando técnicas como incrustaciones de palabras, estas técnicas requieren grandes conjuntos de datos preentrenados, que a menudo no están disponibles en el contexto de documentos cortos específicos de un dominio. Este estudio investiga un nuevo enfoque para enriquecer la representación de documentos durante la indexación utilizando IA generativa. En el enfoque propuesto, los términos relevantes extraídos de los documentos y preprocesados para la indexación se enriquecen con una lista de términos clave sugeridos por un gran modelo de lenguaje (LLM). Después de realizar una pequeña prueba de varios modelos de LLM de renombre para sugerencias de términos clave a partir de un conjunto de textos cortos, se eligió el modelo GPT-4o para experimentar con el enfoque de indexación propuesto. Los hallazgos de este estudio arrojaron resultados notables, demostrando que la IA generativa puede llenar eficientemente la brecha de conocimiento en la representación de documentos, independientemente de la técnica de recuperación utilizada.