Construcción de un Corpus de Extracción de Relaciones Semi-Supervisado y Creación de Modelos para Lenguas con Recursos Limitados: Un Caso de Uso para el Esloveno
Autores: Knez, Timotej; travs, Miha; itnik, Slavko
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Construcción de un Corpus de Extracción de Relaciones Semi-Supervisado y Creación de Modelos para Lenguas con Recursos Limitados: Un Caso de Uso para el Esloveno
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Extracción de relaciones
Entidades
Documento
Idioma
Corpus
Modelos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El objetivo de la extracción de relaciones es reconocer entidades cabeza y cola en un documento y determinar una relación entre ellas. Si bien se ha avanzado mucho en la solución de la extracción de relaciones automatizada en idiomas ampliamente utilizados como el inglés, el uso de estos métodos para idiomas y dominios con pocos recursos es limitado debido a la falta de datos de entrenamiento. En este trabajo, presentamos un pipeline utilizando supervisión distante para construir un corpus de extracción de relaciones en un idioma arbitrario. La construcción del corpus combina documentos de Wikipedia en el idioma objetivo con relaciones en el grafo de conocimiento de WikiData. Demostramos el proceso construyendo un nuevo corpus para la extracción de relaciones en el idioma esloveno. Nuestro corpus captura 20 tipos de relaciones únicas. El corpus final contiene 811,032 relaciones anotadas en 244,437 oraciones. Utilizamos el corpus para entrenar modelos utilizando tres arquitecturas y los evaluamos en la tarea de extracción de relaciones en esloveno. Logramos un rendimiento comparable a los enfoques en datos en inglés.
Descripción
El objetivo de la extracción de relaciones es reconocer entidades cabeza y cola en un documento y determinar una relación entre ellas. Si bien se ha avanzado mucho en la solución de la extracción de relaciones automatizada en idiomas ampliamente utilizados como el inglés, el uso de estos métodos para idiomas y dominios con pocos recursos es limitado debido a la falta de datos de entrenamiento. En este trabajo, presentamos un pipeline utilizando supervisión distante para construir un corpus de extracción de relaciones en un idioma arbitrario. La construcción del corpus combina documentos de Wikipedia en el idioma objetivo con relaciones en el grafo de conocimiento de WikiData. Demostramos el proceso construyendo un nuevo corpus para la extracción de relaciones en el idioma esloveno. Nuestro corpus captura 20 tipos de relaciones únicas. El corpus final contiene 811,032 relaciones anotadas en 244,437 oraciones. Utilizamos el corpus para entrenar modelos utilizando tres arquitecturas y los evaluamos en la tarea de extracción de relaciones en esloveno. Logramos un rendimiento comparable a los enfoques en datos en inglés.