Identificación de expresiones multiword multilingües utilizando inhibición lateral y adaptación de dominio
Autores: Avram, Andrei-Marius; Mititelu, Verginica Barbu; Pi, Vasile; Cercel, Dumitru-Clementin; Truan-Matu, tefan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Identificación de expresiones multiword multilingües utilizando inhibición lateral y adaptación de dominio
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Sistemas de procesamiento del lenguaje natural
Expresiones multi-palabra
Modelo mBERT
Corpus PARSEME
Inhibición lateral
Entrenamiento adversario del lenguaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
Identificar correctamente las expresiones de varias palabras (MWEs) es una tarea importante para la mayoría de los sistemas de procesamiento del lenguaje natural, ya que su identificación errónea puede resultar en ambigüedad y malentendidos del texto subyacente. En este trabajo, evaluamos el rendimiento del modelo mBERT para la identificación de MWE en un contexto multilingüe al entrenarlo en las 14 lenguas disponibles en la versión 1.2 del corpus PARSEME. También incorporamos la inhibición lateral y el entrenamiento adversarial del lenguaje en nuestra metodología para crear incrustaciones independientes del lenguaje y mejorar sus capacidades en la identificación de expresiones de varias palabras. La evaluación de nuestros modelos muestra que el enfoque empleado en este trabajo logra mejores resultados en comparación con el mejor sistema de la competencia PARSEME 1.2, MTLB-STRUCT, en 11 de las 14 lenguas para la identificación global de MWE y en 12 de las 14 lenguas para la identificación de MWE no vistas. Además, en promedio en todas las lenguas, nuestro mejor enfoque supera al sistema MTLB-STRUCT en un 1.23% en la identificación global de MWE y en un 4.73% en la identificación global de MWE no vistas.
Descripción
Identificar correctamente las expresiones de varias palabras (MWEs) es una tarea importante para la mayoría de los sistemas de procesamiento del lenguaje natural, ya que su identificación errónea puede resultar en ambigüedad y malentendidos del texto subyacente. En este trabajo, evaluamos el rendimiento del modelo mBERT para la identificación de MWE en un contexto multilingüe al entrenarlo en las 14 lenguas disponibles en la versión 1.2 del corpus PARSEME. También incorporamos la inhibición lateral y el entrenamiento adversarial del lenguaje en nuestra metodología para crear incrustaciones independientes del lenguaje y mejorar sus capacidades en la identificación de expresiones de varias palabras. La evaluación de nuestros modelos muestra que el enfoque empleado en este trabajo logra mejores resultados en comparación con el mejor sistema de la competencia PARSEME 1.2, MTLB-STRUCT, en 11 de las 14 lenguas para la identificación global de MWE y en 12 de las 14 lenguas para la identificación de MWE no vistas. Además, en promedio en todas las lenguas, nuestro mejor enfoque supera al sistema MTLB-STRUCT en un 1.23% en la identificación global de MWE y en un 4.73% en la identificación global de MWE no vistas.