logo móvil
Contáctanos

Explorando los beneficios de la ampliación de datos y el aprendizaje activo en conjuntos de datos desequilibrados

Autores: Moles, Luis; Andres, Alain; Echegaray, Goretti; Boto, Fernando

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Explorando los beneficios de la ampliación de datos y el aprendizaje activo en conjuntos de datos desequilibrados


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Datos
Aprendizaje activo
Datos etiquetados
Técnicas de aumento de datos
Escenarios de aprendizaje supervisado
Clases minoritarias

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones


Descripción
A pesar de la creciente disponibilidad de grandes cantidades de datos, el desafío de adquirir datos etiquetados persiste. Este problema es particularmente grave en escenarios de aprendizaje supervisado, donde los datos etiquetados son esenciales para el entrenamiento del modelo. Además, el rápido crecimiento de datos requerido por tecnologías de vanguardia como el aprendizaje profundo hace que la tarea de etiquetar grandes conjuntos de datos sea poco práctica. Los métodos de aprendizaje activo ofrecen una solución poderosa al seleccionar de forma iterativa las instancias no etiquetadas más informativas, reduciendo así la cantidad de datos etiquetados requeridos. Sin embargo, el aprendizaje activo enfrenta algunas limitaciones con conjuntos de datos desequilibrados, donde la sobre-representación de la clase mayoritaria puede sesgar la selección de muestras. Para abordar esto, combinar el aprendizaje activo con técnicas de aumento de datos surge como una estrategia prometedora. Sin embargo, todavía no está claro cuál es la mejor manera de combinar estas técnicas. Nuestra investigación aborda esta cuestión analizando la efectividad de combinar tanto el aprendizaje activo como las técnicas de aumento de datos en diferentes escenarios. Además, nos enfocamos en mejorar las capacidades de generalización para las clases minoritarias, que tienden a ser opacadas por la mejora vista en las clases mayoritarias. Con este propósito, generamos datos sintéticos utilizando múltiples métodos de aumento de datos y evaluamos los resultados considerando dos estrategias de aprendizaje activo en tres conjuntos de datos desequilibrados. Nuestro estudio muestra que el aumento de datos mejora la precisión de predicción para las clases minoritarias, con enfoques basados en CTGANs obteniendo mejoras de casi el 50% en algunos casos. Además, demostramos que combinar técnicas de aumento de datos con aprendizaje activo puede reducir la cantidad de datos reales requeridos.

Otros recursos que podrían interesarte

Temas Virtualpro