Modelo de Representación de Palabras de Medicina Tradicional China Aumentado con Información Semántica y Gramatical
Autores: Ma, Yuekun; Sun, Zhongyan; Zhang, Dezheng; Feng, Yechen
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Modelo de Representación de Palabras de Medicina Tradicional China Aumentado con Información Semántica y Gramatical
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Tareas de procesamiento de lenguaje natural
Modelos de representación de palabras
Información semántica contextual
Tarea de reconocimiento de entidades
Modelos superficiales
Modelos de preentrenamiento profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La vectorización de texto es el trabajo básico de las tareas de procesamiento de lenguaje natural. Una representación vectorial de alta calidad con rica información de características puede garantizar la calidad del reconocimiento de entidades y otras tareas posteriores en el campo de la medicina tradicional china (MTC). Los modelos de representación de palabras existentes incluyen principalmente modelos superficiales con vectores de palabras relativamente independientes y modelos de preentrenamiento profundo con una fuerte correlación contextual. Los modelos superficiales tienen estructuras simples pero una extracción insuficiente de información semántica y sintáctica, y los modelos de preentrenamiento profundo tienen una fuerte capacidad de extracción de características, pero los modelos tienen estructuras complejas y grandes escalas de parámetros. Con el fin de construir un modelo de representación de palabras ligero con rica información semántica contextual, este artículo mejora el modelo de representación de palabras superficial con débil relevancia contextual en tres niveles: la parte del discurso (POS) de las palabras objetivo predichas, el orden de las palabras del texto y la sinonimia, antonimia y semántica de analogía. En este estudio, realizamos varios experimentos tanto en análisis de similitud intrínseca como en comparación cuantitativa extrínseca. Los resultados muestran que el modelo propuesto logra un rendimiento de vanguardia en comparación con los modelos de referencia. En la tarea de reconocimiento de entidades, el valor F1 mejoró en un 4.66% en comparación con el modelo tradicional de bolsa de palabras continua (CBOW). El modelo es un modelo de representación de palabras ligero, que reduce el tiempo de entrenamiento en un 51% en comparación con el modelo de lenguaje de preentrenamiento BERT y reduce un 89% en términos de uso de memoria.
Descripción
La vectorización de texto es el trabajo básico de las tareas de procesamiento de lenguaje natural. Una representación vectorial de alta calidad con rica información de características puede garantizar la calidad del reconocimiento de entidades y otras tareas posteriores en el campo de la medicina tradicional china (MTC). Los modelos de representación de palabras existentes incluyen principalmente modelos superficiales con vectores de palabras relativamente independientes y modelos de preentrenamiento profundo con una fuerte correlación contextual. Los modelos superficiales tienen estructuras simples pero una extracción insuficiente de información semántica y sintáctica, y los modelos de preentrenamiento profundo tienen una fuerte capacidad de extracción de características, pero los modelos tienen estructuras complejas y grandes escalas de parámetros. Con el fin de construir un modelo de representación de palabras ligero con rica información semántica contextual, este artículo mejora el modelo de representación de palabras superficial con débil relevancia contextual en tres niveles: la parte del discurso (POS) de las palabras objetivo predichas, el orden de las palabras del texto y la sinonimia, antonimia y semántica de analogía. En este estudio, realizamos varios experimentos tanto en análisis de similitud intrínseca como en comparación cuantitativa extrínseca. Los resultados muestran que el modelo propuesto logra un rendimiento de vanguardia en comparación con los modelos de referencia. En la tarea de reconocimiento de entidades, el valor F1 mejoró en un 4.66% en comparación con el modelo tradicional de bolsa de palabras continua (CBOW). El modelo es un modelo de representación de palabras ligero, que reduce el tiempo de entrenamiento en un 51% en comparación con el modelo de lenguaje de preentrenamiento BERT y reduce un 89% en términos de uso de memoria.