logo móvil
Contáctanos

TabFedSL: un enfoque de autoaprendizaje para etiquetar datos tabulares en entornos de aprendizaje federado

Autores: Wang, Ruixiao; Hu, Yanxin; Chen, Zhiyu; Guo, Jianwei; Liu, Gang

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

TabFedSL: un enfoque de autoaprendizaje para etiquetar datos tabulares en entornos de aprendizaje federado


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aprendizaje auto-supervisado
Etiquetado de datos
Conjuntos de datos grandes
Estructuras espaciales
Datos tabulares
Aprendizaje Federado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Actualmente, el aprendizaje auto-supervisado ha demostrado ser efectivo en la resolución de problemas de etiquetado de datos. Su éxito depende principalmente de tener acceso a conjuntos de datos grandes y de alta calidad con características diversas. También se basa en utilizar las estructuras espaciales, temporales y semánticas presentes en los datos. Sin embargo, dominios como finanzas, salud y seguros utilizan principalmente formatos de datos tabulares. Esto presenta desafíos para los métodos tradicionales de aumento de datos destinados a mejorar la calidad de los datos. Además, la naturaleza sensible a la privacidad de estos dominios complica la adquisición de conjuntos de datos extensos y de alta calidad necesarios para entrenar modelos auto-supervisados efectivos. Para abordar estos desafíos, nuestra propuesta introduce un nuevo marco que combina el aprendizaje auto-supervisado con el Aprendizaje Federado (FL). Este enfoque tiene como objetivo resolver el problema del entrenamiento distribuido de datos asegurando la calidad del entrenamiento. Nuestro marco mejora el paradigma convencional de aumento de datos del aprendizaje auto-supervisado incorporando el etiquetado de datos mediante la segmentación de datos en subconjuntos. Nuestro marco agrega ruido dividiendo subconjuntos de datos y puede lograr el mismo nivel de aprendizaje centralizado en un entorno distribuido. Además, realizamos experimentos en varios conjuntos de datos tabulares públicos para evaluar nuestro enfoque. Los resultados experimentales muestran la efectividad y generalizabilidad de nuestro método propuesto en escenarios que involucran datos no etiquetados y entornos distribuidos.

Otros recursos que podrían interesarte

Temas Virtualpro