Kcb-flat: mejorando el reconocimiento de entidades con nombre chino con información sintáctica y técnicas de suavizado de límites

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Kcb-flat: mejorando el reconocimiento de entidades con nombre chino con información sintáctica y técnicas de suavizado de límites

Autores: Deng, Zhenrong; Huang, Zheng; Wei, Shiwei; Zhang, Jinglin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Kcb-flat: mejorando el reconocimiento de entidades con nombre chino con información sintáctica y técnicas de suavizado de límites

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Reconocimiento de entidades nombradas

Tarea de NER en chino

Modelo KCB-Flat

Datos sintácticos

Red de memoria clave-valor

Suavizado de límites

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones

El reconocimiento de entidades nombradas (NER) es una tarea fundamental en el Procesamiento del Lenguaje Natural (NLP). Durante el proceso de entrenamiento, los modelos de NER sufren de sobreconfianza, especialmente en la tarea de NER en chino, que implica la segmentación de palabras e introduce segmentaciones erróneas de los límites de las entidades, exacerbando la sobreconfianza y reduciendo el rendimiento general del modelo. Estos problemas limitan el avance de los modelos de NER. Para abordar estos problemas, proponemos un nuevo modelo llamado KCB-FLAT, diseñado para mejorar el rendimiento del NER en chino mediante la integración de información semántica enriquecida con la técnica de Suavizado de Límites de Palabras. En particular, primero extraemos varios tipos de datos sintácticos y utilizamos una red llamada Red de Memoria Clave-Valor, basada en información sintáctica para funcionalizar esto, integrándola a través de un mecanismo de atención para generar incrustaciones de características sintácticas para los caracteres chinos. Posteriormente, empleamos un codificador llamado Cross-Transformer para combinar exhaustivamente la información sintáctica y léxica para abordar los errores de segmentación de límites de entidades causados por la información léxica. Finalmente, introducimos un módulo de Suavizado de Límites, combinado con una función consciente de la regularidad, para capturar la regularidad interna de cada entidad, reduciendo la sobreconfianza del modelo en las probabilidades de las entidades a través del suavizado. Los resultados experimentales demuestran que el modelo propuesto logra un rendimiento excepcional en los conjuntos de datos MSRA, Resume, Weibo y ZJ autoconstruidos, verificado por la puntuación F1.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro