Enfoque sencillo para conjuntos de texto corto basado en la similitud: utilizando Transformers y WordNet en escenarios del mundo real con conjuntos de datos multilingües
Autores: Gagliardi, Isabella; Artese, Maria Teresa
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Enfoque sencillo para conjuntos de texto corto basado en la similitud: utilizando Transformers y WordNet en escenarios del mundo real con conjuntos de datos multilingües
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Integración de datos
Similitud semántica
Textos cortos
Palabras clave
Transformadores
Métodos basados en WordNet
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Al integrar datos de diferentes fuentes, surgen problemas de sinonimia, diferentes idiomas y conceptos de granularidad diferente. Este trabajo propone un enfoque simple pero efectivo para evaluar la similitud semántica de textos cortos, especialmente palabras clave. El método es capaz de emparejar palabras clave de diferentes fuentes e idiomas aprovechando transformadores y métodos basados en WordNet. Las características clave del enfoque incluyen su canalización no supervisada, la mitigación de la falta de contexto en palabras clave, la escalabilidad para grandes archivos, el soporte para múltiples idiomas y capacidades de adaptación a escenarios del mundo real. El trabajo tiene como objetivo proporcionar una herramienta versátil para diferentes archivos de patrimonio cultural sin requerir una personalización compleja. El documento tiene como objetivo explorar diferentes enfoques para identificar similitudes en etiquetas de 1 o n-gramos, evaluar y comparar diferentes modelos de lenguaje preentrenados, y definir métodos integrados para superar limitaciones. Se han realizado pruebas para validar el enfoque utilizando el portal QueryLab, un motor de búsqueda para archivos de patrimonio cultural, para evaluar la canalización propuesta.
Descripción
Al integrar datos de diferentes fuentes, surgen problemas de sinonimia, diferentes idiomas y conceptos de granularidad diferente. Este trabajo propone un enfoque simple pero efectivo para evaluar la similitud semántica de textos cortos, especialmente palabras clave. El método es capaz de emparejar palabras clave de diferentes fuentes e idiomas aprovechando transformadores y métodos basados en WordNet. Las características clave del enfoque incluyen su canalización no supervisada, la mitigación de la falta de contexto en palabras clave, la escalabilidad para grandes archivos, el soporte para múltiples idiomas y capacidades de adaptación a escenarios del mundo real. El trabajo tiene como objetivo proporcionar una herramienta versátil para diferentes archivos de patrimonio cultural sin requerir una personalización compleja. El documento tiene como objetivo explorar diferentes enfoques para identificar similitudes en etiquetas de 1 o n-gramos, evaluar y comparar diferentes modelos de lenguaje preentrenados, y definir métodos integrados para superar limitaciones. Se han realizado pruebas para validar el enfoque utilizando el portal QueryLab, un motor de búsqueda para archivos de patrimonio cultural, para evaluar la canalización propuesta.