Un formalización de la clasificación multietiqueta en términos de teoría de retículos y teoría de la información: sobre conjuntos de datos
Autores: Valverde-Albacete, Francisco J.; Peláez-Moreno, Carmen
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un formalización de la clasificación multietiqueta en términos de teoría de retículos y teoría de la información: sobre conjuntos de datos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Clasificación multietiqueta
Enfoque centrado en los datos
Teoría de retículos
Triángulos de entropía
Dependencias
Remuestreo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
La clasificación multietiqueta es una tarea conceptualizada recientemente en el aprendizaje automático. Contrario a la mayoría de las investigaciones que hasta ahora se han enfocado en maquinaria de clasificación, tomamos un enfoque centrado en los datos y proporcionamos un marco integrador que combina descripciones cualitativas y cuantitativas de fuentes de datos multietiqueta. Al combinar la teoría de retículos, en forma de análisis de conceptos formales, y triángulos de entropía, obtenidos de la teoría de la información, explicamos desde los primeros principios los problemas fundamentales de los conjuntos de datos multietiqueta como las dependencias de las etiquetas, sus desequilibrios o los efectos de la presencia de hapaxes. Esto nos permite proporcionar pautas para el remuestreo y la nueva recolección de datos y su relación con enfoques de modelado amplios. Hemos validado empíricamente nuestro marco utilizando 56 conjuntos de datos abiertos, desafiando caracterizaciones previas que demuestran que nuestra formalización aporta ideas útiles a la tarea de clasificación multietiqueta. Trabajos futuros considerarán la extensión de esta formalización para entender la relación entre las fuentes de datos, los métodos de clasificación y formas de evaluar su rendimiento.
Descripción
La clasificación multietiqueta es una tarea conceptualizada recientemente en el aprendizaje automático. Contrario a la mayoría de las investigaciones que hasta ahora se han enfocado en maquinaria de clasificación, tomamos un enfoque centrado en los datos y proporcionamos un marco integrador que combina descripciones cualitativas y cuantitativas de fuentes de datos multietiqueta. Al combinar la teoría de retículos, en forma de análisis de conceptos formales, y triángulos de entropía, obtenidos de la teoría de la información, explicamos desde los primeros principios los problemas fundamentales de los conjuntos de datos multietiqueta como las dependencias de las etiquetas, sus desequilibrios o los efectos de la presencia de hapaxes. Esto nos permite proporcionar pautas para el remuestreo y la nueva recolección de datos y su relación con enfoques de modelado amplios. Hemos validado empíricamente nuestro marco utilizando 56 conjuntos de datos abiertos, desafiando caracterizaciones previas que demuestran que nuestra formalización aporta ideas útiles a la tarea de clasificación multietiqueta. Trabajos futuros considerarán la extensión de esta formalización para entender la relación entre las fuentes de datos, los métodos de clasificación y formas de evaluar su rendimiento.