Método robusto de desambiguación de entidades en textos cortos en chino basado en la fusión de características y el aprendizaje contrastivo
Autores: Mei, Qishun; Li, Xuhui
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Método robusto de desambiguación de entidades en textos cortos en chino basado en la fusión de características y el aprendizaje contrastivo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Limitaciones
Métodos existentes
Desambiguación de entidades en texto corto
Extracción de características
Muestras de entrenamiento masivas
COLBERT
Características temáticas basadas en LDA
Características semánticas basadas en BERT
Aprendizaje contrastivo
Puntuación F1
Método de referencia
Muestras de entrenamiento
Efectividad
Robustez
Anotación de datos
Costos de entrenamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para abordar las limitaciones de los métodos existentes de desambiguación de entidades en textos cortos, específicamente en términos de su insuficiente extracción de características y su dependencia de muestras de entrenamiento masivas, proponemos un modelo de desambiguación de entidades llamado COLBERT, que fusiona características temáticas basadas en LDA y características semánticas basadas en BERT, así como el uso de aprendizaje contrastivo, para mejorar el proceso de desambiguación. Los experimentos en un conjunto de datos de desambiguación de entidades en textos cortos en chino, disponible públicamente, muestran que el modelo propuesto alcanza una puntuación F1 del 84.0%, superando el método de referencia en un 0.6%. Además, nuestro modelo logra una puntuación F1 del 74.5% con un número limitado de muestras de entrenamiento, lo que es un 2.8% más alto que el método de referencia. Estos resultados demuestran que nuestro modelo logra una mejor efectividad y robustez y puede reducir la carga de la anotación de datos, así como los costos de entrenamiento.
Descripción
Para abordar las limitaciones de los métodos existentes de desambiguación de entidades en textos cortos, específicamente en términos de su insuficiente extracción de características y su dependencia de muestras de entrenamiento masivas, proponemos un modelo de desambiguación de entidades llamado COLBERT, que fusiona características temáticas basadas en LDA y características semánticas basadas en BERT, así como el uso de aprendizaje contrastivo, para mejorar el proceso de desambiguación. Los experimentos en un conjunto de datos de desambiguación de entidades en textos cortos en chino, disponible públicamente, muestran que el modelo propuesto alcanza una puntuación F1 del 84.0%, superando el método de referencia en un 0.6%. Además, nuestro modelo logra una puntuación F1 del 74.5% con un número limitado de muestras de entrenamiento, lo que es un 2.8% más alto que el método de referencia. Estos resultados demuestran que nuestro modelo logra una mejor efectividad y robustez y puede reducir la carga de la anotación de datos, así como los costos de entrenamiento.