Mejorando el Rendimiento del Reconocimiento de Entidades Nombradas en Telugu Utilizando Características de Gazetter
Autores: Gorla, SaiKiranmai; Neti, Lalita Bhanu Murthy; Malapati, Aruna
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Mejorando el Rendimiento del Reconocimiento de Entidades Nombradas en Telugu Utilizando Características de Gazetter
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Procesamiento de lenguaje natural
Reconocimiento de entidades nombradas
Modelos NER
Lenguas del sudeste asiático
Telugu
Características de gazetteer
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento de entidades nombradas (NER) es un paso fundamental para muchas tareas de procesamiento de lenguaje natural y, por lo tanto, mejorar el rendimiento de los modelos de NER siempre es apreciado. Con recursos limitados disponibles, el NER para idiomas del sudeste asiático como el telugu es un problema bastante desafiante. Este artículo intenta mejorar el rendimiento del NER para el telugu utilizando características relacionadas con gazetteers, que se generan automáticamente utilizando páginas de Wikipedia. Hacemos uso de estas características de gazetteers junto con otras características bien conocidas como características contextuales, a nivel de palabra y del corpus para construir modelos de NER. Los modelos de NER se desarrollan utilizando tres clasificadores bien conocidos: campo aleatorio condicional (CRF), máquina de vectores de soporte (SVM) y algoritmos relajados infundidos por margen (MIRA). Se ha demostrado que las características de gazetteers mejoran el rendimiento, y el modelo de NER basado en MIRA tuvo un mejor desempeño que sus contrapartes SVM y CRF.
Descripción
El reconocimiento de entidades nombradas (NER) es un paso fundamental para muchas tareas de procesamiento de lenguaje natural y, por lo tanto, mejorar el rendimiento de los modelos de NER siempre es apreciado. Con recursos limitados disponibles, el NER para idiomas del sudeste asiático como el telugu es un problema bastante desafiante. Este artículo intenta mejorar el rendimiento del NER para el telugu utilizando características relacionadas con gazetteers, que se generan automáticamente utilizando páginas de Wikipedia. Hacemos uso de estas características de gazetteers junto con otras características bien conocidas como características contextuales, a nivel de palabra y del corpus para construir modelos de NER. Los modelos de NER se desarrollan utilizando tres clasificadores bien conocidos: campo aleatorio condicional (CRF), máquina de vectores de soporte (SVM) y algoritmos relajados infundidos por margen (MIRA). Se ha demostrado que las características de gazetteers mejoran el rendimiento, y el modelo de NER basado en MIRA tuvo un mejor desempeño que sus contrapartes SVM y CRF.