logo móvil
Contáctanos

Modelo de Representación de Palabras de Medicina Tradicional China Aumentado con Información Semántica y Gramatical

Autores: Ma, Yuekun; Sun, Zhongyan; Zhang, Dezheng; Feng, Yechen

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Modelo de Representación de Palabras de Medicina Tradicional China Aumentado con Información Semántica y Gramatical


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Tareas de procesamiento de lenguaje natural
Modelos de representación de palabras
Información semántica contextual
Tarea de reconocimiento de entidades
Modelos superficiales
Modelos de preentrenamiento profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La vectorización de texto es el trabajo básico de las tareas de procesamiento de lenguaje natural. Una representación vectorial de alta calidad con rica información de características puede garantizar la calidad del reconocimiento de entidades y otras tareas posteriores en el campo de la medicina tradicional china (MTC). Los modelos de representación de palabras existentes incluyen principalmente modelos superficiales con vectores de palabras relativamente independientes y modelos de preentrenamiento profundo con una fuerte correlación contextual. Los modelos superficiales tienen estructuras simples pero una extracción insuficiente de información semántica y sintáctica, y los modelos de preentrenamiento profundo tienen una fuerte capacidad de extracción de características, pero los modelos tienen estructuras complejas y grandes escalas de parámetros. Con el fin de construir un modelo de representación de palabras ligero con rica información semántica contextual, este artículo mejora el modelo de representación de palabras superficial con débil relevancia contextual en tres niveles: la parte del discurso (POS) de las palabras objetivo predichas, el orden de las palabras del texto y la sinonimia, antonimia y semántica de analogía. En este estudio, realizamos varios experimentos tanto en análisis de similitud intrínseca como en comparación cuantitativa extrínseca. Los resultados muestran que el modelo propuesto logra un rendimiento de vanguardia en comparación con los modelos de referencia. En la tarea de reconocimiento de entidades, el valor F1 mejoró en un 4.66% en comparación con el modelo tradicional de bolsa de palabras continua (CBOW). El modelo es un modelo de representación de palabras ligero, que reduce el tiempo de entrenamiento en un 51% en comparación con el modelo de lenguaje de preentrenamiento BERT y reduce un 89% en términos de uso de memoria.

Otros recursos que podrían interesarte

Temas Virtualpro