logo móvil
Contáctanos

Construcción de un Corpus de Extracción de Relaciones Semi-Supervisado y Creación de Modelos para Lenguas con Recursos Limitados: Un Caso de Uso para el Esloveno

Autores: Knez, Timotej; travs, Miha; itnik, Slavko

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Construcción de un Corpus de Extracción de Relaciones Semi-Supervisado y Creación de Modelos para Lenguas con Recursos Limitados: Un Caso de Uso para el Esloveno


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Extracción de relaciones
Entidades
Documento
Idioma
Corpus
Modelos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El objetivo de la extracción de relaciones es reconocer entidades cabeza y cola en un documento y determinar una relación entre ellas. Si bien se ha avanzado mucho en la solución de la extracción de relaciones automatizada en idiomas ampliamente utilizados como el inglés, el uso de estos métodos para idiomas y dominios con pocos recursos es limitado debido a la falta de datos de entrenamiento. En este trabajo, presentamos un pipeline utilizando supervisión distante para construir un corpus de extracción de relaciones en un idioma arbitrario. La construcción del corpus combina documentos de Wikipedia en el idioma objetivo con relaciones en el grafo de conocimiento de WikiData. Demostramos el proceso construyendo un nuevo corpus para la extracción de relaciones en el idioma esloveno. Nuestro corpus captura 20 tipos de relaciones únicas. El corpus final contiene 811,032 relaciones anotadas en 244,437 oraciones. Utilizamos el corpus para entrenar modelos utilizando tres arquitecturas y los evaluamos en la tarea de extracción de relaciones en esloveno. Logramos un rendimiento comparable a los enfoques en datos en inglés.

Otros recursos que podrían interesarte

Temas Virtualpro