logo móvil
Contáctanos

Kcb-flat: mejorando el reconocimiento de entidades con nombre chino con información sintáctica y técnicas de suavizado de límites

Autores: Deng, Zhenrong; Huang, Zheng; Wei, Shiwei; Zhang, Jinglin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Kcb-flat: mejorando el reconocimiento de entidades con nombre chino con información sintáctica y técnicas de suavizado de límites


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Reconocimiento de entidades nombradas
Tarea de NER en chino
Modelo KCB-Flat
Datos sintácticos
Red de memoria clave-valor
Suavizado de límites

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
El reconocimiento de entidades nombradas (NER) es una tarea fundamental en el Procesamiento del Lenguaje Natural (NLP). Durante el proceso de entrenamiento, los modelos de NER sufren de sobreconfianza, especialmente en la tarea de NER en chino, que implica la segmentación de palabras e introduce segmentaciones erróneas de los límites de las entidades, exacerbando la sobreconfianza y reduciendo el rendimiento general del modelo. Estos problemas limitan el avance de los modelos de NER. Para abordar estos problemas, proponemos un nuevo modelo llamado KCB-FLAT, diseñado para mejorar el rendimiento del NER en chino mediante la integración de información semántica enriquecida con la técnica de Suavizado de Límites de Palabras. En particular, primero extraemos varios tipos de datos sintácticos y utilizamos una red llamada Red de Memoria Clave-Valor, basada en información sintáctica para funcionalizar esto, integrándola a través de un mecanismo de atención para generar incrustaciones de características sintácticas para los caracteres chinos. Posteriormente, empleamos un codificador llamado Cross-Transformer para combinar exhaustivamente la información sintáctica y léxica para abordar los errores de segmentación de límites de entidades causados por la información léxica. Finalmente, introducimos un módulo de Suavizado de Límites, combinado con una función consciente de la regularidad, para capturar la regularidad interna de cada entidad, reduciendo la sobreconfianza del modelo en las probabilidades de las entidades a través del suavizado. Los resultados experimentales demuestran que el modelo propuesto logra un rendimiento excepcional en los conjuntos de datos MSRA, Resume, Weibo y ZJ autoconstruidos, verificado por la puntuación F1.

Otros recursos que podrían interesarte

Temas Virtualpro