Reensamblaje de nombres de entidad fragmentados: un modelo novedoso para el procesamiento de sustantivos compuestos chinos
Autores: Pan, Yuze; Fu, Xiaofeng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reensamblaje de nombres de entidad fragmentados: un modelo novedoso para el procesamiento de sustantivos compuestos chinos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Proceso
Desafíos
Conjunto de datos
Clasificadores
Nombres de entidades
Modelo BERT
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
En el proceso de clasificación de activos inteligentes, nos encontramos con desafíos debido a un conjunto de datos limitado dominado por complejas frases nominales compuestas. Entrenar clasificadores directamente en este conjunto de datos planteaba riesgos de sobreajuste y posibles interpretaciones erróneas debido a las ambigüedades inherentes en estas frases. Reconociendo la brecha en la literatura actual para métodos adaptados que aborden este desafío, este artículo introduce un enfoque refinado para la extracción precisa de nombres de entidades de tales estructuras. Aprovechamos el modelo BERT pre-entrenado en chino combinado con un mecanismo de atención, asegurando una interpretación precisa de la importancia de cada token. Esto fue seguido por la utilización tanto de un perceptrón multicapa (MLP) como de un Modelo de Análisis de Secuencia basado en LSTM, adaptado para la anotación de secuencias y el análisis basado en reglas. Con la ayuda de un decodificador basado en reglas, reconstruimos nombres de entidades completos. Nuestro enfoque extrae hábilmente nombres de entidades estructuralmente coherentes de frases nominales compuestas fragmentadas. Experimentos en un conjunto de datos anotado manualmente de frases nominales compuestas demuestran que nuestro modelo supera consistentemente a metodologías rivales. Estos resultados validan de manera convincente la superioridad de nuestro método en la extracción de nombres de entidades de frases nominales compuestas.
Descripción
En el proceso de clasificación de activos inteligentes, nos encontramos con desafíos debido a un conjunto de datos limitado dominado por complejas frases nominales compuestas. Entrenar clasificadores directamente en este conjunto de datos planteaba riesgos de sobreajuste y posibles interpretaciones erróneas debido a las ambigüedades inherentes en estas frases. Reconociendo la brecha en la literatura actual para métodos adaptados que aborden este desafío, este artículo introduce un enfoque refinado para la extracción precisa de nombres de entidades de tales estructuras. Aprovechamos el modelo BERT pre-entrenado en chino combinado con un mecanismo de atención, asegurando una interpretación precisa de la importancia de cada token. Esto fue seguido por la utilización tanto de un perceptrón multicapa (MLP) como de un Modelo de Análisis de Secuencia basado en LSTM, adaptado para la anotación de secuencias y el análisis basado en reglas. Con la ayuda de un decodificador basado en reglas, reconstruimos nombres de entidades completos. Nuestro enfoque extrae hábilmente nombres de entidades estructuralmente coherentes de frases nominales compuestas fragmentadas. Experimentos en un conjunto de datos anotado manualmente de frases nominales compuestas demuestran que nuestro modelo supera consistentemente a metodologías rivales. Estos resultados validan de manera convincente la superioridad de nuestro método en la extracción de nombres de entidades de frases nominales compuestas.