logo móvil
Contáctanos

Abordando dependencias de larga distancia en el análisis AMR con anotación de cláusulas jerárquicas

Autores: Fan, Yunlong; Li, Bin; Sataer, Yikemaiti; Gao, Miao; Shi, Chuanqi; Gao, Zhiqiang

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Abordando dependencias de larga distancia en el análisis AMR con anotación de cláusulas jerárquicas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Procesamiento de lenguaje natural
Análisis AMR
Transformadores
Dependencias a larga distancia
Anotación jerárquica de cláusulas
Enfoques basados en HCA

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
La mayoría de las tareas de procesamiento del lenguaje natural (NLP) operacionalizan una oración de entrada como una secuencia con incrustaciones y características a nivel de token, a pesar de su estructura clausal. Tomando el análisis de representación de significado abstracto (AMR) como ejemplo, los analizadores recientes son potenciados por transformadores y modelos de lenguaje pre-entrenados, pero las dependencias a larga distancia (LDDs) introducidas por secuencias largas siguen siendo problemas abiertos. Sostenemos que las LDDs no son realmente culpables de la longitud de la secuencia, sino que están relacionadas esencialmente con la jerarquía de la cláusula interna. Por lo general, las palabras no verbales en una cláusula no pueden depender de palabras fuera de ella, y los verbos de cláusulas diferentes pero relacionadas tienen dependencias mucho más largas que los de la misma cláusula. Con esta intuición, introducimos un tipo de característica clausal, la anotación jerárquica de cláusulas (HCA), en el análisis de AMR y proponemos dos enfoques basados en HCA, autoatención basada en HCA (HCA-SA) y aprendizaje curricular basado en HCA (HCA-CL), para integrar árboles de HCA de oraciones complejas para abordar LDDs. Realizamos experimentos extensos en dos conjuntos de datos de AMR en distribución (ID) (AMR 2.0 y AMR 3.0) y tres fuera de distribución (OOD) (TLP, New3 y Bio). Los resultados experimentales muestran que nuestros enfoques basados en HCA logran mejoras significativas y explicables (puntuación de 0.7 Smatch en ambos conjuntos de datos ID; 2.3, 0.7 y 2.6 en tres conjuntos de datos OOD, respectivamente) contra el modelo base y superan al modelo de estado del arte (SOTA) (puntuación de 0.7 Smatch en el conjunto de datos OOD, Bio) al encontrarse con oraciones con estructuras clausales complejas que introducen la mayoría de los casos de LDD.

Otros recursos que podrían interesarte

Temas Virtualpro