Selección de Prototipos para Aprendizaje Basado en Instancias Multietiqueta
Autores: Filippakis, Panagiotis; Ougiaroglou, Stefanos; Evangelidis, Georgios
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Selección de Prototipos para Aprendizaje Basado en Instancias Multietiqueta
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Tamaño
Conjunto de entrenamiento
Clasificadores basados en instancias
Técnicas de reducción de datos
Selección de prototipos
Datos multilabel
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Reducir el tamaño del conjunto de entrenamiento, que implica reemplazarlo por un conjunto condensado, es una práctica ampliamente adoptada para mejorar la eficiencia de los clasificadores basados en instancias mientras se intenta mantener una alta precisión de clasificación. Este objetivo se puede lograr mediante el uso de técnicas de reducción de datos, también conocidas como algoritmos de selección o generación de prototipos. Aunque hay numerosos algoritmos disponibles en la literatura que abordan eficazmente problemas de clasificación de etiqueta única, la mayoría de ellos no son aplicables a datos multilabel, donde una instancia puede pertenecer a múltiples clases. Los métodos de transformación bien conocidos no se pueden combinar con una técnica de reducción de datos por diferentes razones. La regla del Vecino Más Cercano Condensado es un popular algoritmo de selección de prototipos de etiqueta única sin parámetros. El algoritmo IB2 es la variación de un solo paso de la regla del Vecino Más Cercano Condensado. Este artículo propone variaciones de estos algoritmos para datos multilabel. A través de un estudio experimental realizado en nueve conjuntos de datos distintos, así como pruebas estadísticas, demostramos que los ocho enfoques propuestos (cuatro para cada algoritmo) ofrecen tasas de reducción significativas sin comprometer la precisión de clasificación.
Descripción
Reducir el tamaño del conjunto de entrenamiento, que implica reemplazarlo por un conjunto condensado, es una práctica ampliamente adoptada para mejorar la eficiencia de los clasificadores basados en instancias mientras se intenta mantener una alta precisión de clasificación. Este objetivo se puede lograr mediante el uso de técnicas de reducción de datos, también conocidas como algoritmos de selección o generación de prototipos. Aunque hay numerosos algoritmos disponibles en la literatura que abordan eficazmente problemas de clasificación de etiqueta única, la mayoría de ellos no son aplicables a datos multilabel, donde una instancia puede pertenecer a múltiples clases. Los métodos de transformación bien conocidos no se pueden combinar con una técnica de reducción de datos por diferentes razones. La regla del Vecino Más Cercano Condensado es un popular algoritmo de selección de prototipos de etiqueta única sin parámetros. El algoritmo IB2 es la variación de un solo paso de la regla del Vecino Más Cercano Condensado. Este artículo propone variaciones de estos algoritmos para datos multilabel. A través de un estudio experimental realizado en nueve conjuntos de datos distintos, así como pruebas estadísticas, demostramos que los ocho enfoques propuestos (cuatro para cada algoritmo) ofrecen tasas de reducción significativas sin comprometer la precisión de clasificación.