logo móvil
Contáctanos

CWPC_BiAtt: Atención BiLSTM Combinada de Carácter-Palabra-Posición para el Reconocimiento de Entidades Nombradas en Chino

Autores: Johnson, Shardrom; Shen, Sherlock; Liu, Yuanchen

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

CWPC_BiAtt: Atención BiLSTM Combinada de Carácter-Palabra-Posición para el Reconocimiento de Entidades Nombradas en Chino


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Características lingüísticas
Etiquetado de partes del discurso
Reconocimiento de entidades nombradas
Procesamiento de lenguaje natural
Incrustación integral
BiLSTM-Attention

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Normalmente considerado como características lingüísticas por el etiquetado de Partes del Discurso (POS), el Reconocimiento de Entidades Nombradas (NER) es una tarea importante en el Procesamiento del Lenguaje Natural (NLP). En este artículo, proponemos un nuevo embedding integral, considerando tres aspectos, a saber, embedding de caracteres, embedding de palabras y embedding de posiciones, cosidos en el orden que damos, y así obtener sus dependencias, sobre las cuales proponemos un nuevo BiLSTM-Attention Combinado de Caracteres y Palabras (CWPC_BiAtt) para la tarea de NER en chino. El embedding integral a través de la capa de Memoria a Largo Plazo Bidireccional (BiLSTM) puede obtener la conexión entre la información histórica y futura, y luego emplear el mecanismo de atención para capturar la conexión entre el contenido de la oración en la posición actual y el de cualquier ubicación. Finalmente, utilizamos Campos Aleatorios Condicionales (CRF) para decodificar toda la secuencia de etiquetado. Los experimentos muestran que el modelo CWPC_BiAtt que proponemos está bien calificado para la tarea de NER en el conjunto de datos de Microsoft Research Asia (MSRA) y el corpus de NER de Weibo. Se obtuvo una alta precisión y recuperación, lo que verificó la estabilidad del modelo. El embedding de posición en el embedding integral puede compensar el mecanismo de atención para proporcionar información de posición para la secuencia desordenada, lo que demuestra que el embedding integral tiene completitud. Mirando todo el modelo, nuestro propuesto CWPC_BiAtt tiene tres características distintas: completitud, simplicidad y estabilidad. Nuestro modelo CWPC_BiAtt propuesto logró la puntuación F más alta, alcanzando el rendimiento de vanguardia en el conjunto de datos MSRA y el corpus de NER de Weibo.

Otros recursos que podrían interesarte

Temas Virtualpro