Algoritmos de selección de atributos semisupervisados para datos multiconjunto parcialmente etiquetados
Autores: He, Yuanzi; He, Jiali; Liu, Haotian; Li, Zhaowen
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Algoritmos de selección de atributos semisupervisados para datos multiconjunto parcialmente etiquetados
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje automático
Algoritmo de aprendizaje semi-supervisado
Sistema de información incompleto
Teoría de conjuntos aproximados
Datos parcialmente etiquetados
Algoritmos de selección de atributos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
En aprendizaje automático, cuando la parte etiquetada de los datos necesita ser procesada, se utiliza un algoritmo de aprendizaje semi-supervisado. Un conjunto de datos con valores de atributos o etiquetas faltantes se conoce como un sistema de información incompleto. Abordar la información incompleta dentro de un sistema plantea un desafío significativo, que puede ser abordado de manera efectiva a través de la aplicación de la teoría del conjunto aproximado (-theory). Sin embargo, la -teoría tiene sus límites: no considera la frecuencia de un valor de atributo y luego no puede la distribución de los valores de atributo adecuadamente. Si consideramos datos parcialmente etiquetados y reemplazamos un valor de atributo faltante con el multiconjunto de todos los posibles valores de atributo bajo el mismo atributo, esto da como resultado la aparición de datos parcialmente etiquetados de valor multiconjunto. En un algoritmo de aprendizaje semi-supervisado, para ahorrar tiempo y costos, es necesario eliminar un gran número de características redundantes. Este estudio propone algoritmos de selección de atributos semi-supervisados para datos parcialmente etiquetados de valor multiconjunto. Inicialmente, un sistema de información de decisión de valor multiconjunto parcialmente etiquetado (p-MSVDIS) se divide en dos sistemas distintos: un sistema de información de decisión de valor multiconjunto etiquetado (l-MSVDIS) y un sistema de información de decisión de valor multiconjunto no etiquetado (u-MSVDIS). Posteriormente, utilizando la relación indistinguible, la relación distinguible y la función de dependencia, se definen dos tipos de importancia de subconjunto de atributos en un p-MSVDIS: la suma ponderada de l-MSVDIS y u-MSVDIS determinada por la tasa de etiquetas faltantes, que puede considerarse una medida de incertidumbre (UM) de un p-MSVDIS. A continuación, se presentan dos algoritmos adaptativos de selección de atributos semi-supervisados para un p-MSVDIS, que aprovechan los grados de importancia, lo que permite una adaptación automática a diversas tasas de etiquetas faltantes. Finalmente, se realizan experimentos y análisis estadísticos en 11 conjuntos de datos. El resultado indica que los algoritmos propuestos muestran ventajas sobre ciertos algoritmos.
Descripción
En aprendizaje automático, cuando la parte etiquetada de los datos necesita ser procesada, se utiliza un algoritmo de aprendizaje semi-supervisado. Un conjunto de datos con valores de atributos o etiquetas faltantes se conoce como un sistema de información incompleto. Abordar la información incompleta dentro de un sistema plantea un desafío significativo, que puede ser abordado de manera efectiva a través de la aplicación de la teoría del conjunto aproximado (-theory). Sin embargo, la -teoría tiene sus límites: no considera la frecuencia de un valor de atributo y luego no puede la distribución de los valores de atributo adecuadamente. Si consideramos datos parcialmente etiquetados y reemplazamos un valor de atributo faltante con el multiconjunto de todos los posibles valores de atributo bajo el mismo atributo, esto da como resultado la aparición de datos parcialmente etiquetados de valor multiconjunto. En un algoritmo de aprendizaje semi-supervisado, para ahorrar tiempo y costos, es necesario eliminar un gran número de características redundantes. Este estudio propone algoritmos de selección de atributos semi-supervisados para datos parcialmente etiquetados de valor multiconjunto. Inicialmente, un sistema de información de decisión de valor multiconjunto parcialmente etiquetado (p-MSVDIS) se divide en dos sistemas distintos: un sistema de información de decisión de valor multiconjunto etiquetado (l-MSVDIS) y un sistema de información de decisión de valor multiconjunto no etiquetado (u-MSVDIS). Posteriormente, utilizando la relación indistinguible, la relación distinguible y la función de dependencia, se definen dos tipos de importancia de subconjunto de atributos en un p-MSVDIS: la suma ponderada de l-MSVDIS y u-MSVDIS determinada por la tasa de etiquetas faltantes, que puede considerarse una medida de incertidumbre (UM) de un p-MSVDIS. A continuación, se presentan dos algoritmos adaptativos de selección de atributos semi-supervisados para un p-MSVDIS, que aprovechan los grados de importancia, lo que permite una adaptación automática a diversas tasas de etiquetas faltantes. Finalmente, se realizan experimentos y análisis estadísticos en 11 conjuntos de datos. El resultado indica que los algoritmos propuestos muestran ventajas sobre ciertos algoritmos.