Aprendizaje positivo y no etiquetado de varias clases para datos de alta dimensionalidad basado en detección de valores atípicos en un espacio de incrustación de baja dimensionalidad
Autores: Park, Cheong Hee
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje positivo y no etiquetado de varias clases para datos de alta dimensionalidad basado en detección de valores atípicos en un espacio de incrustación de baja dimensionalidad
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Clasificador binario
Positivo de múltiples clases
Aprendizaje de MPU
Datos de alta dimensionalidad
Muestras negativas
Discriminante lineal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
El aprendizaje positivo y no etiquetado (PU) apunta a un clasificador binario en datos positivos etiquetados y datos no etiquetados que contienen muestras de datos de clases positivas y negativas desconocidas, mientras que el aprendizaje positivo y no etiquetado de múltiples clases (MPU) tiene como objetivo aprender un clasificador de múltiples clases asumiendo datos etiquetados de múltiples clases positivas. En este documento, proponemos un enfoque de dos pasos para el aprendizaje de MPU en datos de alta dimensionalidad. En el primer paso, se seleccionan muestras negativas de datos no etiquetados utilizando un conjunto de modelos de detección de valores atípicos basados en los k-vecinos más cercanos en un espacio de baja dimensionalidad que está incrustado por una función discriminante lineal. Presentamos un enfoque para la predicción binaria que determina si una muestra de datos es una muestra de datos negativos. En el segundo paso, la función discriminante lineal se optimiza en los datos positivos etiquetados y las muestras negativas seleccionadas en el primer paso. Alterna entre la actualización de los parámetros de la función discriminante lineal y la selección de muestras negativas confiables mediante la detección de valores atípicos en un espacio de baja dimensionalidad. Los resultados experimentales utilizando datos de texto de alta dimensionalidad demuestran el alto rendimiento del método de aprendizaje de MPU propuesto.
Descripción
El aprendizaje positivo y no etiquetado (PU) apunta a un clasificador binario en datos positivos etiquetados y datos no etiquetados que contienen muestras de datos de clases positivas y negativas desconocidas, mientras que el aprendizaje positivo y no etiquetado de múltiples clases (MPU) tiene como objetivo aprender un clasificador de múltiples clases asumiendo datos etiquetados de múltiples clases positivas. En este documento, proponemos un enfoque de dos pasos para el aprendizaje de MPU en datos de alta dimensionalidad. En el primer paso, se seleccionan muestras negativas de datos no etiquetados utilizando un conjunto de modelos de detección de valores atípicos basados en los k-vecinos más cercanos en un espacio de baja dimensionalidad que está incrustado por una función discriminante lineal. Presentamos un enfoque para la predicción binaria que determina si una muestra de datos es una muestra de datos negativos. En el segundo paso, la función discriminante lineal se optimiza en los datos positivos etiquetados y las muestras negativas seleccionadas en el primer paso. Alterna entre la actualización de los parámetros de la función discriminante lineal y la selección de muestras negativas confiables mediante la detección de valores atípicos en un espacio de baja dimensionalidad. Los resultados experimentales utilizando datos de texto de alta dimensionalidad demuestran el alto rendimiento del método de aprendizaje de MPU propuesto.