Entrenamiento de datos aumentado con datos destilados por análisis de componentes principales
Autores: Sirakov, Nikolay Metodiev; Shahnewaz, Tahsin; Nakhmani, Arie
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Entrenamiento de datos aumentado con datos destilados por análisis de componentes principales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Método propuesto
Análisis de componentes principales
Vectores
Entrenamiento
Aumentado
Clasificadores
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Este trabajo desarrolla un nuevo método para la ampliación de datos vectoriales. El método propuesto aplica el análisis de componentes principales (PCA), determina los autovectores de un conjunto de vectores de entrenamiento para un método de aprendizaje automático (ML) y los utiliza para generar los vectores destilados. Los vectores de entrenamiento y los vectores destilados por PCA tienen la misma dimensión. El usuario elige la cantidad de vectores a destilar y ampliar al conjunto de vectores de entrenamiento. Un enfoque estadístico determina el menor número de vectores a destilar de manera que, al ampliar los vectores originales, el conjunto extendido entrene a un clasificador de ML para lograr una precisión requerida. Por lo tanto, la novedad de este estudio es la destilación de vectores con el método PCA y su uso para ampliar el conjunto original de vectores. La ventaja que se deriva de la novedad es que aumenta las estadísticas de los clasificadores de ML. Para validar la ventaja, realizamos experimentos con cuatro bases de datos públicas y aplicamos cuatro clasificadores: una red neuronal, regresión logística y máquina de vectores de soporte con núcleos lineales y polinómicos. Con el propósito de ampliación, realizamos varias destilaciones, incluida la destilación anidada (doble destilación). La noción de esta última significa que se destilaron nuevos vectores a partir de vectores ya destilados. Entrenamos los clasificadores con tres conjuntos de vectores: los vectores originales, los vectores originales ampliados con vectores destilados por PCA y los vectores originales ampliados con vectores destilados por PCA y doblemente destilados por vectores PCA. Los resultados experimentales se presentan en el documento y confirman la ventaja de los vectores destilados por PCA al aumentar las estadísticas de clasificación de los métodos de ML si los vectores destilados amplían los vectores de entrenamiento originales.
Descripción
Este trabajo desarrolla un nuevo método para la ampliación de datos vectoriales. El método propuesto aplica el análisis de componentes principales (PCA), determina los autovectores de un conjunto de vectores de entrenamiento para un método de aprendizaje automático (ML) y los utiliza para generar los vectores destilados. Los vectores de entrenamiento y los vectores destilados por PCA tienen la misma dimensión. El usuario elige la cantidad de vectores a destilar y ampliar al conjunto de vectores de entrenamiento. Un enfoque estadístico determina el menor número de vectores a destilar de manera que, al ampliar los vectores originales, el conjunto extendido entrene a un clasificador de ML para lograr una precisión requerida. Por lo tanto, la novedad de este estudio es la destilación de vectores con el método PCA y su uso para ampliar el conjunto original de vectores. La ventaja que se deriva de la novedad es que aumenta las estadísticas de los clasificadores de ML. Para validar la ventaja, realizamos experimentos con cuatro bases de datos públicas y aplicamos cuatro clasificadores: una red neuronal, regresión logística y máquina de vectores de soporte con núcleos lineales y polinómicos. Con el propósito de ampliación, realizamos varias destilaciones, incluida la destilación anidada (doble destilación). La noción de esta última significa que se destilaron nuevos vectores a partir de vectores ya destilados. Entrenamos los clasificadores con tres conjuntos de vectores: los vectores originales, los vectores originales ampliados con vectores destilados por PCA y los vectores originales ampliados con vectores destilados por PCA y doblemente destilados por vectores PCA. Los resultados experimentales se presentan en el documento y confirman la ventaja de los vectores destilados por PCA al aumentar las estadísticas de clasificación de los métodos de ML si los vectores destilados amplían los vectores de entrenamiento originales.