logo móvil
Contáctanos

Aprovechando el Análisis Semántico de Texto para Mejorar el Rendimiento de la Extracción de Relaciones Basada en Transformadores

Autores: Evans, Marie-Therese Charlotte; Latifi, Majid; Ahsan, Mominul; Haider, Julfikar

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Aprovechando el Análisis Semántico de Texto para Mejorar el Rendimiento de la Extracción de Relaciones Basada en Transformadores


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Bases de conocimiento
Extracción de relaciones conjuntas
Transformadores preentrenados
Puntuaciones f1
Técnicas de procesamiento de lenguaje natural
Análisis semántico de texto

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La extracción de palabras clave de las bases de conocimiento fundamenta la definición de relevancia en los sistemas de búsqueda de bibliotecas digitales. Sin embargo, es la tarea pertinente de la Extracción Conjunta de Relaciones, que pobla las bases de conocimiento de las cuales se obtienen los resultados. Trabajos recientes se centran en transformadores preentrenados y ajustados. Sin embargo, las puntuaciones F1 para la literatura científica alcanzan solo 53.2, frente a 69 en el dominio general. La investigación demuestra el fracaso del trabajo existente para evidenciar la justificación de las optimizaciones a los clasificadores ajustados. En contraste, la investigación emergente adopta subjetivamente la creencia común de que las técnicas de Procesamiento de Lenguaje Natural no logran derivar contexto y conocimiento compartido. De hecho, el contexto global y el conocimiento compartido representan solo el 10.4% y el 11.2% de las clasificaciones erróneas de relaciones, respectivamente. En este trabajo, el novedoso empleo del análisis semántico de texto presenta desafíos objetivos para la clasificación basada en transformadores de la Extracción Conjunta de Relaciones. Este es el primer trabajo conocido que cuantifica que la propagación de errores en tuberías representa el 45.3% de las clasificaciones erróneas de relaciones, el desafío más agudo en este dominio. Más específicamente, el etiquetado de partes del discurso destaca la clasificación errónea de frases nominales complejas, que representan el 25.47% de las clasificaciones erróneas de relaciones. Además, este estudio identifica dos limitaciones en la supuesta bidireccionalidad de las Representaciones de Codificador Bidireccional de Transformadores (BERT) del Modelo de Lenguaje Preentrenado. En primer lugar, hay un notable desequilibrio en la clasificación errónea de relaciones de derecha a izquierda, que ocurre a una tasa el doble que la de relaciones de izquierda a derecha. Además, la incapacidad para reconocer el contexto local a través de determinantes y preposiciones contribuye al 16.04% de las clasificaciones erróneas. Además, se destaca que el esquema de anotación del conjunto de datos singular utilizado en la investigación existente, Entidades Científicas, Relaciones y Correferencias (SciERC), está empañado por la ambigüedad. Notablemente, dos relaciones asimétricas dentro de este conjunto de datos logran tasas de recuperación de solo el 10% y el 29%.

Otros recursos que podrían interesarte

Temas Virtualpro