Selección de variables en análisis de datos: un kit de herramientas de datos sintéticos
Autores: Mitra, Rohan; Ali, Eyad; Varam, Dara; Sulieman, Hana; Kamalov, Firuz
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Selección de variables en análisis de datos: un kit de herramientas de datos sintéticos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Variables
Algoritmos de selección de características
Conjuntos de datos sintéticos
Criterios de evaluación
Relevancia
Redundancia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
La selección de variables (características) juega un papel importante en el análisis de datos y modelado matemático. Este documento tiene como objetivo abordar la significativa falta de referencias formales de evaluación para algoritmos de selección de variables (FSAs, por sus siglas en inglés). Para evaluar los FSAs de manera efectiva, se requieren entornos controlados, y el uso de conjuntos de datos sintéticos ofrece ventajas significativas. Introducimos un conjunto de diez conjuntos de datos generados sintéticamente con relevancia, redundancia e irrelevancia de características conocidas, derivadas de diversas fuentes matemáticas, lógicas y geométricas. Además, se evalúan ocho FSAs en estos conjuntos de datos en función de su relevancia y novedad. El documento primero presenta los conjuntos de datos y luego proporciona un análisis experimental exhaustivo del rendimiento de los FSAs seleccionados en estos conjuntos de datos, incluida la prueba de la resistencia de los FSAs ante dos tipos de ruido de datos inducidos. El análisis ha guiado la agrupación de los conjuntos de datos generados en cuatro grupos de complejidad de datos. Por último, proporcionamos acceso público a los conjuntos de datos generados para facilitar la evaluación de nuevos algoritmos de selección de variables en el campo a través de nuestro repositorio en Github. Las contribuciones de este documento tienen como objetivo fomentar el desarrollo de nuevos algoritmos de selección de variables y avanzar en su estudio.
Descripción
La selección de variables (características) juega un papel importante en el análisis de datos y modelado matemático. Este documento tiene como objetivo abordar la significativa falta de referencias formales de evaluación para algoritmos de selección de variables (FSAs, por sus siglas en inglés). Para evaluar los FSAs de manera efectiva, se requieren entornos controlados, y el uso de conjuntos de datos sintéticos ofrece ventajas significativas. Introducimos un conjunto de diez conjuntos de datos generados sintéticamente con relevancia, redundancia e irrelevancia de características conocidas, derivadas de diversas fuentes matemáticas, lógicas y geométricas. Además, se evalúan ocho FSAs en estos conjuntos de datos en función de su relevancia y novedad. El documento primero presenta los conjuntos de datos y luego proporciona un análisis experimental exhaustivo del rendimiento de los FSAs seleccionados en estos conjuntos de datos, incluida la prueba de la resistencia de los FSAs ante dos tipos de ruido de datos inducidos. El análisis ha guiado la agrupación de los conjuntos de datos generados en cuatro grupos de complejidad de datos. Por último, proporcionamos acceso público a los conjuntos de datos generados para facilitar la evaluación de nuevos algoritmos de selección de variables en el campo a través de nuestro repositorio en Github. Las contribuciones de este documento tienen como objetivo fomentar el desarrollo de nuevos algoritmos de selección de variables y avanzar en su estudio.