logo móvil
Contáctanos

Un novedoso aprendiz activo de bajo presupuesto de consultas con pseudoetiquetas para datos desequilibrados

Autores: Tharwat, Alaa; Schenck, Wolfram

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un novedoso aprendiz activo de bajo presupuesto de consultas con pseudoetiquetas para datos desequilibrados


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Gran cantidad
Modelos de aprendizaje supervisado
Técnica de aprendizaje activo
Conjunto informativo
Fases de exploración y explotación
Puntos pseudoetiquetados

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
A pesar de la disponibilidad de una gran cantidad de datos no etiquetados gratuitos, recopilar suficientes datos de entrenamiento para modelos de aprendizaje supervisado es un desafío debido al tiempo y costo involucrado en el proceso de etiquetado. La técnica de aprendizaje activo que presentamos aquí proporciona una solución al consultar un conjunto pequeño pero altamente informativo de datos no etiquetados. Asegura una alta generalización en el espacio, mejorando el rendimiento de clasificación con datos de prueba que nunca hemos visto antes. La mayoría de los aprendices activos consultan los datos más informativos o representativos para etiquetarlos. Estos dos criterios se combinan en el algoritmo propuesto mediante el uso de dos fases: fases de exploración y explotación. La primera tiene como objetivo explorar el espacio de instancias visitando nuevas regiones en cada iteración. La segunda fase intenta seleccionar puntos altamente informativos en regiones inciertas. Sin ningún conocimiento predefinido, como datos de entrenamiento iniciales, estas dos fases mejoran la estrategia de búsqueda del algoritmo propuesto para que pueda explorar el espacio de la clase minoritaria con datos desequilibrados utilizando un presupuesto de consulta pequeño. Además, se agregan algunos puntos pseudoetiquetados ubicados geométricamente en regiones exploradas confiables alrededor de los nuevos puntos etiquetados a los datos de entrenamiento, pero con pesos más bajos que los puntos etiquetados originales. Estos puntos pseudoetiquetados desempeñan varios roles en nuestro modelo, como (i) aumentar el tamaño de los datos de entrenamiento y (ii) disminuir el tamaño del espacio de versiones al reducir el número de hipótesis consistentes con los datos de entrenamiento. Experimentos en conjuntos de datos sintéticos y reales con diferentes tasas de desequilibrio y dimensiones muestran que el algoritmo propuesto tiene ventajas significativas sobre varios aprendices activos conocidos.

Otros recursos que podrían interesarte

Temas Virtualpro