Destilando conocimiento con un modelo multitarea de profesor para el reconocimiento de entidades nombradas biomédicas
Autores: Mehmood, Tahir; Gerevini, Alfonso E.; Lavelli, Alberto; Olivato, Matteo; Serina, Ivan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Destilando conocimiento con un modelo multitarea de profesor para el reconocimiento de entidades nombradas biomédicas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos
Aprendizaje multitarea
Representaciones
Arquitectura de redes neuronales
Destilación de conocimiento
Generalizaciones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de tarea única (STMs) tienen dificultades para aprender representaciones sofisticadas a partir de un conjunto finito de datos anotados. Los enfoques de aprendizaje multitarea superan estas limitaciones al entrenar simultáneamente varias tareas asociadas, aprendiendo así representaciones genéricas entre diversas tareas al compartir algunas capas de la arquitectura de la red neuronal. Debido a esto, los modelos multitarea (MTMs) tienen mejores propiedades de generalización que los del aprendizaje de tarea única. Las generalizaciones de los modelos multitarea se pueden utilizar para mejorar los resultados de otros modelos. Los STMs pueden aprender representaciones más sofisticadas en la fase de entrenamiento al utilizar el conocimiento extraído de un MTM a través de la técnica de destilación de conocimiento, donde un modelo supervisa a otro modelo durante el entrenamiento utilizando sus generalizaciones aprendidas. Este artículo propone una técnica de destilación de conocimiento en la que se utilizan diferentes MTMs como modelo maestro para supervisar diferentes modelos estudiantes. La destilación de conocimiento se aplica con diferentes representaciones del modelo maestro. También investigamos el efecto del campo aleatorio condicional (CRF) y la función softmax para el enfoque de destilación de conocimiento a nivel de token, y encontramos que la función softmax mejoró el rendimiento del modelo estudiante en comparación con el CRF. El análisis de resultados también se amplió con un análisis estadístico utilizando la prueba de Friedman.
Descripción
Los modelos de tarea única (STMs) tienen dificultades para aprender representaciones sofisticadas a partir de un conjunto finito de datos anotados. Los enfoques de aprendizaje multitarea superan estas limitaciones al entrenar simultáneamente varias tareas asociadas, aprendiendo así representaciones genéricas entre diversas tareas al compartir algunas capas de la arquitectura de la red neuronal. Debido a esto, los modelos multitarea (MTMs) tienen mejores propiedades de generalización que los del aprendizaje de tarea única. Las generalizaciones de los modelos multitarea se pueden utilizar para mejorar los resultados de otros modelos. Los STMs pueden aprender representaciones más sofisticadas en la fase de entrenamiento al utilizar el conocimiento extraído de un MTM a través de la técnica de destilación de conocimiento, donde un modelo supervisa a otro modelo durante el entrenamiento utilizando sus generalizaciones aprendidas. Este artículo propone una técnica de destilación de conocimiento en la que se utilizan diferentes MTMs como modelo maestro para supervisar diferentes modelos estudiantes. La destilación de conocimiento se aplica con diferentes representaciones del modelo maestro. También investigamos el efecto del campo aleatorio condicional (CRF) y la función softmax para el enfoque de destilación de conocimiento a nivel de token, y encontramos que la función softmax mejoró el rendimiento del modelo estudiante en comparación con el CRF. El análisis de resultados también se amplió con un análisis estadístico utilizando la prueba de Friedman.