logo móvil
Contáctanos

Método robusto de desambiguación de entidades en textos cortos en chino basado en la fusión de características y el aprendizaje contrastivo

Autores: Mei, Qishun; Li, Xuhui

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Método robusto de desambiguación de entidades en textos cortos en chino basado en la fusión de características y el aprendizaje contrastivo


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Limitaciones
Métodos existentes
Desambiguación de entidades en texto corto
Extracción de características
Muestras de entrenamiento masivas
COLBERT
Características temáticas basadas en LDA
Características semánticas basadas en BERT
Aprendizaje contrastivo
Puntuación F1
Método de referencia
Muestras de entrenamiento
Efectividad
Robustez
Anotación de datos
Costos de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Para abordar las limitaciones de los métodos existentes de desambiguación de entidades en textos cortos, específicamente en términos de su insuficiente extracción de características y su dependencia de muestras de entrenamiento masivas, proponemos un modelo de desambiguación de entidades llamado COLBERT, que fusiona características temáticas basadas en LDA y características semánticas basadas en BERT, así como el uso de aprendizaje contrastivo, para mejorar el proceso de desambiguación. Los experimentos en un conjunto de datos de desambiguación de entidades en textos cortos en chino, disponible públicamente, muestran que el modelo propuesto alcanza una puntuación F1 del 84.0%, superando el método de referencia en un 0.6%. Además, nuestro modelo logra una puntuación F1 del 74.5% con un número limitado de muestras de entrenamiento, lo que es un 2.8% más alto que el método de referencia. Estos resultados demuestran que nuestro modelo logra una mejor efectividad y robustez y puede reducir la carga de la anotación de datos, así como los costos de entrenamiento.

Otros recursos que podrían interesarte

Temas Virtualpro