Regla mejorada de aprendizaje activo para supervisión débil semi-automatizada
Autores: Kartchner, David; Nakajima An, Davi; Ren, Wendi; Zhang, Chao; Mitchell, Cassie S.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Regla mejorada de aprendizaje activo para supervisión débil semi-automatizada
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Cuello de botella
Sistemas de aprendizaje profundo
Supervisión débil
Aprendizaje activo
Modelos preentrenados
Funciones de etiquetado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Un importante cuello de botella que impide la extensión de los sistemas de aprendizaje profundo a nuevos dominios es el costo prohibitivo de adquirir suficientes etiquetas de entrenamiento. Alternativas como la supervisión débil, el aprendizaje activo y el ajuste fino de modelos preentrenados reducen esta carga pero requieren una importante entrada humana para seleccionar un subconjunto altamente informativo de instancias o para curar funciones de etiquetado. REGAL (Rule-Enhanced Generative Active Learning) es un marco mejorado para la clasificación de texto débilmente supervisada que realiza aprendizaje activo sobre funciones de etiquetado en lugar de instancias individuales. REGAL crea de forma interactiva patrones de etiquetado de alta calidad a partir de texto en bruto, lo que permite a un único anotador etiquetar con precisión un conjunto de datos completo después de la inicialización con tres palabras clave para cada clase. Los experimentos demuestran que REGAL extrae hasta 3 veces más funciones de etiquetado de alta precisión a partir de texto que los métodos actuales de vanguardia para la supervisión débil interactiva, lo que permite a REGAL reducir drásticamente la carga de anotación al escribir funciones de etiquetado para la supervisión débil. El análisis estadístico revela que REGAL tiene un rendimiento igual o significativamente mejor que la supervisión débil interactiva para cinco de los seis conjuntos de datos de referencia de procesamiento del lenguaje natural (NLP) comúnmente utilizados.
Descripción
Un importante cuello de botella que impide la extensión de los sistemas de aprendizaje profundo a nuevos dominios es el costo prohibitivo de adquirir suficientes etiquetas de entrenamiento. Alternativas como la supervisión débil, el aprendizaje activo y el ajuste fino de modelos preentrenados reducen esta carga pero requieren una importante entrada humana para seleccionar un subconjunto altamente informativo de instancias o para curar funciones de etiquetado. REGAL (Rule-Enhanced Generative Active Learning) es un marco mejorado para la clasificación de texto débilmente supervisada que realiza aprendizaje activo sobre funciones de etiquetado en lugar de instancias individuales. REGAL crea de forma interactiva patrones de etiquetado de alta calidad a partir de texto en bruto, lo que permite a un único anotador etiquetar con precisión un conjunto de datos completo después de la inicialización con tres palabras clave para cada clase. Los experimentos demuestran que REGAL extrae hasta 3 veces más funciones de etiquetado de alta precisión a partir de texto que los métodos actuales de vanguardia para la supervisión débil interactiva, lo que permite a REGAL reducir drásticamente la carga de anotación al escribir funciones de etiquetado para la supervisión débil. El análisis estadístico revela que REGAL tiene un rendimiento igual o significativamente mejor que la supervisión débil interactiva para cinco de los seis conjuntos de datos de referencia de procesamiento del lenguaje natural (NLP) comúnmente utilizados.