Un novedoso aprendiz activo de bajo presupuesto de consultas con pseudoetiquetas para datos desequilibrados
Autores: Tharwat, Alaa; Schenck, Wolfram
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un novedoso aprendiz activo de bajo presupuesto de consultas con pseudoetiquetas para datos desequilibrados
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Gran cantidad
Modelos de aprendizaje supervisado
Técnica de aprendizaje activo
Conjunto informativo
Fases de exploración y explotación
Puntos pseudoetiquetados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
A pesar de la disponibilidad de una gran cantidad de datos no etiquetados gratuitos, recopilar suficientes datos de entrenamiento para modelos de aprendizaje supervisado es un desafío debido al tiempo y costo involucrado en el proceso de etiquetado. La técnica de aprendizaje activo que presentamos aquí proporciona una solución al consultar un conjunto pequeño pero altamente informativo de datos no etiquetados. Asegura una alta generalización en el espacio, mejorando el rendimiento de clasificación con datos de prueba que nunca hemos visto antes. La mayoría de los aprendices activos consultan los datos más informativos o representativos para etiquetarlos. Estos dos criterios se combinan en el algoritmo propuesto mediante el uso de dos fases: fases de exploración y explotación. La primera tiene como objetivo explorar el espacio de instancias visitando nuevas regiones en cada iteración. La segunda fase intenta seleccionar puntos altamente informativos en regiones inciertas. Sin ningún conocimiento predefinido, como datos de entrenamiento iniciales, estas dos fases mejoran la estrategia de búsqueda del algoritmo propuesto para que pueda explorar el espacio de la clase minoritaria con datos desequilibrados utilizando un presupuesto de consulta pequeño. Además, se agregan algunos puntos pseudoetiquetados ubicados geométricamente en regiones exploradas confiables alrededor de los nuevos puntos etiquetados a los datos de entrenamiento, pero con pesos más bajos que los puntos etiquetados originales. Estos puntos pseudoetiquetados desempeñan varios roles en nuestro modelo, como (i) aumentar el tamaño de los datos de entrenamiento y (ii) disminuir el tamaño del espacio de versiones al reducir el número de hipótesis consistentes con los datos de entrenamiento. Experimentos en conjuntos de datos sintéticos y reales con diferentes tasas de desequilibrio y dimensiones muestran que el algoritmo propuesto tiene ventajas significativas sobre varios aprendices activos conocidos.
Descripción
A pesar de la disponibilidad de una gran cantidad de datos no etiquetados gratuitos, recopilar suficientes datos de entrenamiento para modelos de aprendizaje supervisado es un desafío debido al tiempo y costo involucrado en el proceso de etiquetado. La técnica de aprendizaje activo que presentamos aquí proporciona una solución al consultar un conjunto pequeño pero altamente informativo de datos no etiquetados. Asegura una alta generalización en el espacio, mejorando el rendimiento de clasificación con datos de prueba que nunca hemos visto antes. La mayoría de los aprendices activos consultan los datos más informativos o representativos para etiquetarlos. Estos dos criterios se combinan en el algoritmo propuesto mediante el uso de dos fases: fases de exploración y explotación. La primera tiene como objetivo explorar el espacio de instancias visitando nuevas regiones en cada iteración. La segunda fase intenta seleccionar puntos altamente informativos en regiones inciertas. Sin ningún conocimiento predefinido, como datos de entrenamiento iniciales, estas dos fases mejoran la estrategia de búsqueda del algoritmo propuesto para que pueda explorar el espacio de la clase minoritaria con datos desequilibrados utilizando un presupuesto de consulta pequeño. Además, se agregan algunos puntos pseudoetiquetados ubicados geométricamente en regiones exploradas confiables alrededor de los nuevos puntos etiquetados a los datos de entrenamiento, pero con pesos más bajos que los puntos etiquetados originales. Estos puntos pseudoetiquetados desempeñan varios roles en nuestro modelo, como (i) aumentar el tamaño de los datos de entrenamiento y (ii) disminuir el tamaño del espacio de versiones al reducir el número de hipótesis consistentes con los datos de entrenamiento. Experimentos en conjuntos de datos sintéticos y reales con diferentes tasas de desequilibrio y dimensiones muestran que el algoritmo propuesto tiene ventajas significativas sobre varios aprendices activos conocidos.