El aprendizaje profundo con incrustaciones de palabras mejora el reconocimiento de entidades nombradas en kazajo
Autores: Haisa, Gulizada; Altenbek, Gulila
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
El aprendizaje profundo con incrustaciones de palabras mejora el reconocimiento de entidades nombradas en kazajo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Tareas de extracción de texto
Entidades nombradas en kazajo
Modelo híbrido de red neuronal
Mecanismos de atención
Segmentación de subpalabras
Campo aleatorio condicional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento de entidades nombradas (NER) es un paso preliminar para varias tareas de extracción de texto. En este trabajo, intentamos reconocer entidades nombradas en kazajo al introducir un modelo de red neuronal híbrido que aprovecha la semántica de las palabras con características multidimensionales y mecanismos de atención. Hay dos desafíos principales: primero, el kazajo es un idioma aglutinante y morfológicamente rico que presenta un desafío para el NER debido a la escasez de datos. El otro es que las entidades nombradas en kazajo tienen límites poco claros, polisemia y anidamiento. Una estrategia común para manejar la escasez de datos es aplicar segmentación de subpalabras. Así, combinamos la semántica de las palabras y las raíces mediante el análisis morfológico del kazajo. Además, construimos una estructura gráfica de entidades, con palabras, entidades y categorías de entidades como nodos y relaciones de inclusión como aristas, y actualizamos los nodos utilizando una red neuronal gráfica con puertas (GGNN) con un mecanismo de atención. Finalmente, a través del campo aleatorio condicional (CRF), extraímos los resultados finales. Los resultados experimentales muestran que nuestro método supera consistentemente todos los métodos anteriores con un 88.04% en términos de puntuaciones F1.
Descripción
El reconocimiento de entidades nombradas (NER) es un paso preliminar para varias tareas de extracción de texto. En este trabajo, intentamos reconocer entidades nombradas en kazajo al introducir un modelo de red neuronal híbrido que aprovecha la semántica de las palabras con características multidimensionales y mecanismos de atención. Hay dos desafíos principales: primero, el kazajo es un idioma aglutinante y morfológicamente rico que presenta un desafío para el NER debido a la escasez de datos. El otro es que las entidades nombradas en kazajo tienen límites poco claros, polisemia y anidamiento. Una estrategia común para manejar la escasez de datos es aplicar segmentación de subpalabras. Así, combinamos la semántica de las palabras y las raíces mediante el análisis morfológico del kazajo. Además, construimos una estructura gráfica de entidades, con palabras, entidades y categorías de entidades como nodos y relaciones de inclusión como aristas, y actualizamos los nodos utilizando una red neuronal gráfica con puertas (GGNN) con un mecanismo de atención. Finalmente, a través del campo aleatorio condicional (CRF), extraímos los resultados finales. Los resultados experimentales muestran que nuestro método supera consistentemente todos los métodos anteriores con un 88.04% en términos de puntuaciones F1.