logo móvil
Contáctanos

Destilando conocimiento con un modelo multitarea de profesor para el reconocimiento de entidades nombradas biomédicas

Autores: Mehmood, Tahir; Gerevini, Alfonso E.; Lavelli, Alberto; Olivato, Matteo; Serina, Ivan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Destilando conocimiento con un modelo multitarea de profesor para el reconocimiento de entidades nombradas biomédicas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos
Aprendizaje multitarea
Representaciones
Arquitectura de redes neuronales
Destilación de conocimiento
Generalizaciones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los modelos de tarea única (STMs) tienen dificultades para aprender representaciones sofisticadas a partir de un conjunto finito de datos anotados. Los enfoques de aprendizaje multitarea superan estas limitaciones al entrenar simultáneamente varias tareas asociadas, aprendiendo así representaciones genéricas entre diversas tareas al compartir algunas capas de la arquitectura de la red neuronal. Debido a esto, los modelos multitarea (MTMs) tienen mejores propiedades de generalización que los del aprendizaje de tarea única. Las generalizaciones de los modelos multitarea se pueden utilizar para mejorar los resultados de otros modelos. Los STMs pueden aprender representaciones más sofisticadas en la fase de entrenamiento al utilizar el conocimiento extraído de un MTM a través de la técnica de destilación de conocimiento, donde un modelo supervisa a otro modelo durante el entrenamiento utilizando sus generalizaciones aprendidas. Este artículo propone una técnica de destilación de conocimiento en la que se utilizan diferentes MTMs como modelo maestro para supervisar diferentes modelos estudiantes. La destilación de conocimiento se aplica con diferentes representaciones del modelo maestro. También investigamos el efecto del campo aleatorio condicional (CRF) y la función softmax para el enfoque de destilación de conocimiento a nivel de token, y encontramos que la función softmax mejoró el rendimiento del modelo estudiante en comparación con el CRF. El análisis de resultados también se amplió con un análisis estadístico utilizando la prueba de Friedman.

Otros recursos que podrían interesarte

Temas Virtualpro