Una representación de palabras mejorada para el reconocimiento de entidades nombradas basado en aprendizaje profundo en lenguas indias
Autores: A P, Ajees; K, Manju; Mary Idicula, Sumam
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Una representación de palabras mejorada para el reconocimiento de entidades nombradas basado en aprendizaje profundo en lenguas indias
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Reconocimiento de entidades nombradas
Documento de texto
Procesamiento de lenguaje natural
Lenguas indias
Técnicas de aprendizaje profundo
Representación de palabras
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El Reconocimiento de Entidades Nombradas (NER) es el proceso de identificar las unidades elementales en un documento de texto y clasificarlas en categorías predefinidas como persona, ubicación, organización, entre otras. NER juega un papel importante en muchas aplicaciones de Procesamiento de Lenguaje Natural, como la recuperación de información, la respuesta a preguntas, la traducción automática, entre otras. Resolver las ambigüedades de los elementos léxicos involucrados en un documento de texto es una tarea desafiante. NER en los idiomas indios siempre es una tarea compleja debido a su riqueza morfológica y naturaleza aglutinante. A pesar de que se han propuesto diferentes soluciones para NER, sigue siendo un problema no resuelto. Los enfoques tradicionales para el Reconocimiento de Entidades Nombradas se basaban en la aplicación de características elaboradas a mano a técnicas clásicas de aprendizaje automático como el Modelo Oculto de Markov (HMM), la Máquina de Vectores de Soporte (SVM), el Campo Aleatorio Condicional (CRF), entre otros. Pero la introducción de técnicas de aprendizaje profundo al problema de NER cambió el escenario, donde se han logrado resultados de vanguardia utilizando arquitecturas de aprendizaje profundo. En este artículo, abordamos el problema de la representación efectiva de palabras para NER en idiomas indios al capturar la información sintáctica, semántica y morfológica. Proponemos un sistema de extracción de entidades basado en aprendizaje profundo para idiomas indios utilizando una nueva representación combinada de palabras, que incluye incrustaciones a nivel de carácter, a nivel de palabra y a nivel de afijo. Hemos utilizado los datos compartidos "ARNEKT-IECSIL 2018" para el entrenamiento y la prueba. Nuestros resultados destacan la mejora que obtuvimos sobre las representaciones de palabras preentrenadas existentes.
Descripción
El Reconocimiento de Entidades Nombradas (NER) es el proceso de identificar las unidades elementales en un documento de texto y clasificarlas en categorías predefinidas como persona, ubicación, organización, entre otras. NER juega un papel importante en muchas aplicaciones de Procesamiento de Lenguaje Natural, como la recuperación de información, la respuesta a preguntas, la traducción automática, entre otras. Resolver las ambigüedades de los elementos léxicos involucrados en un documento de texto es una tarea desafiante. NER en los idiomas indios siempre es una tarea compleja debido a su riqueza morfológica y naturaleza aglutinante. A pesar de que se han propuesto diferentes soluciones para NER, sigue siendo un problema no resuelto. Los enfoques tradicionales para el Reconocimiento de Entidades Nombradas se basaban en la aplicación de características elaboradas a mano a técnicas clásicas de aprendizaje automático como el Modelo Oculto de Markov (HMM), la Máquina de Vectores de Soporte (SVM), el Campo Aleatorio Condicional (CRF), entre otros. Pero la introducción de técnicas de aprendizaje profundo al problema de NER cambió el escenario, donde se han logrado resultados de vanguardia utilizando arquitecturas de aprendizaje profundo. En este artículo, abordamos el problema de la representación efectiva de palabras para NER en idiomas indios al capturar la información sintáctica, semántica y morfológica. Proponemos un sistema de extracción de entidades basado en aprendizaje profundo para idiomas indios utilizando una nueva representación combinada de palabras, que incluye incrustaciones a nivel de carácter, a nivel de palabra y a nivel de afijo. Hemos utilizado los datos compartidos "ARNEKT-IECSIL 2018" para el entrenamiento y la prueba. Nuestros resultados destacan la mejora que obtuvimos sobre las representaciones de palabras preentrenadas existentes.