Clasificador autoencodificador variacional sensible al costo para la clasificación de datos desequilibrados
Autores: Liu, Fen; Qian, Quan
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Clasificador autoencodificador variacional sensible al costo para la clasificación de datos desequilibrados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Clasificación
Datos desequilibrados
Datos de minorías
Sensible al costo
Autoencodificación variacional
Costos de clasificación errónea
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
La clasificación es una de las tareas fundamentales en el aprendizaje automático. Los algoritmos de clasificación existentes suelen basarse en la suposición de clases de datos al menos aproximadamente equilibradas. Al realizar tareas que implican datos desequilibrados, tales clasificadores ignoran los datos de la minoría considerando la precisión general. El rendimiento de los algoritmos de clasificación tradicionales basados en la suposición de una distribución equilibrada de datos es insuficiente porque las muestras de la clase minoritaria suelen ser más importantes que otras, como las muestras positivas, en el diagnóstico de enfermedades. En este estudio, proponemos un clasificador de autoencodificación variacional sensible al costo que combina métodos a nivel de datos y de algoritmo para resolver el problema de la clasificación de datos desequilibrados. Se introducen factores sensibles al costo para asignar un alto costo a la clasificación errónea de datos de la minoría, lo que sesga el clasificador hacia los datos de la minoría. También diseñamos costos de clasificación errónea estrechamente relacionados con tareas mediante la incorporación de conocimiento del dominio. Los resultados experimentales muestran que el método propuesto realizó bien la clasificación de materiales amorfos a granel.
Descripción
La clasificación es una de las tareas fundamentales en el aprendizaje automático. Los algoritmos de clasificación existentes suelen basarse en la suposición de clases de datos al menos aproximadamente equilibradas. Al realizar tareas que implican datos desequilibrados, tales clasificadores ignoran los datos de la minoría considerando la precisión general. El rendimiento de los algoritmos de clasificación tradicionales basados en la suposición de una distribución equilibrada de datos es insuficiente porque las muestras de la clase minoritaria suelen ser más importantes que otras, como las muestras positivas, en el diagnóstico de enfermedades. En este estudio, proponemos un clasificador de autoencodificación variacional sensible al costo que combina métodos a nivel de datos y de algoritmo para resolver el problema de la clasificación de datos desequilibrados. Se introducen factores sensibles al costo para asignar un alto costo a la clasificación errónea de datos de la minoría, lo que sesga el clasificador hacia los datos de la minoría. También diseñamos costos de clasificación errónea estrechamente relacionados con tareas mediante la incorporación de conocimiento del dominio. Los resultados experimentales muestran que el método propuesto realizó bien la clasificación de materiales amorfos a granel.