Un novedoso aprendiz activo de bajo presupuesto de consultas con pseudoetiquetas para datos desequilibrados

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un novedoso aprendiz activo de bajo presupuesto de consultas con pseudoetiquetas para datos desequilibrados

Autores: Tharwat, Alaa; Schenck, Wolfram

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Un novedoso aprendiz activo de bajo presupuesto de consultas con pseudoetiquetas para datos desequilibrados

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Gran cantidad

Modelos de aprendizaje supervisado

Técnica de aprendizaje activo

Conjunto informativo

Fases de exploración y explotación

Puntos pseudoetiquetados

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones

A pesar de la disponibilidad de una gran cantidad de datos no etiquetados gratuitos, recopilar suficientes datos de entrenamiento para modelos de aprendizaje supervisado es un desafío debido al tiempo y costo involucrado en el proceso de etiquetado. La técnica de aprendizaje activo que presentamos aquí proporciona una solución al consultar un conjunto pequeño pero altamente informativo de datos no etiquetados. Asegura una alta generalización en el espacio, mejorando el rendimiento de clasificación con datos de prueba que nunca hemos visto antes. La mayoría de los aprendices activos consultan los datos más informativos o representativos para etiquetarlos. Estos dos criterios se combinan en el algoritmo propuesto mediante el uso de dos fases: fases de exploración y explotación. La primera tiene como objetivo explorar el espacio de instancias visitando nuevas regiones en cada iteración. La segunda fase intenta seleccionar puntos altamente informativos en regiones inciertas. Sin ningún conocimiento predefinido, como datos de entrenamiento iniciales, estas dos fases mejoran la estrategia de búsqueda del algoritmo propuesto para que pueda explorar el espacio de la clase minoritaria con datos desequilibrados utilizando un presupuesto de consulta pequeño. Además, se agregan algunos puntos pseudoetiquetados ubicados geométricamente en regiones exploradas confiables alrededor de los nuevos puntos etiquetados a los datos de entrenamiento, pero con pesos más bajos que los puntos etiquetados originales. Estos puntos pseudoetiquetados desempeñan varios roles en nuestro modelo, como (i) aumentar el tamaño de los datos de entrenamiento y (ii) disminuir el tamaño del espacio de versiones al reducir el número de hipótesis consistentes con los datos de entrenamiento. Experimentos en conjuntos de datos sintéticos y reales con diferentes tasas de desequilibrio y dimensiones muestran que el algoritmo propuesto tiene ventajas significativas sobre varios aprendices activos conocidos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro