El papel de la elección del estimador de información mutua en la selección de características: un estudio empírico sobre mRMR
Autores: Papaioannou, Nikolaos; Myllis, Georgios; Tsimpiris, Alkiviadis; Vrana, Vasiliki
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
El papel de la elección del estimador de información mutua en la selección de características: un estudio empírico sobre mRMR
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Ampliamente utilizado
Método de selección de características
Información mutua
Estimador
Rendimiento
Conjunto de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La Relevancia Máxima y la Redundancia Mínima (mRMR) es un método de selección de características ampliamente utilizado que se aplica en una amplia gama de aplicaciones en diversos campos. mRMR añade al subconjunto óptimo las características que tienen alta relevancia para la variable objetivo mientras tienen una mínima redundancia entre sí. La información mutua es un componente clave de mRMR, ya que mide el grado de dependencia entre dos variables. Sin embargo, el valor real de la información mutua no se conoce y necesita ser estimado. El objetivo de este estudio es examinar si la elección del estimador de información mutua afecta el rendimiento de mRMR. Para ello, se comparan tres variaciones de mRMR. La primera utiliza la estimación de ventana de Parzen para evaluar la información mutua entre variables continuas. La segunda se basa en la partición equidistante utilizando el método de celdas, mientras que la tercera incorpora una versión corregida por sesgo del mismo estimador. Todos los métodos se prueban con y sin un término de regularización en el denominador de mRMR, introducido para mejorar la estabilidad numérica. La evaluación se lleva a cabo en conjuntos de datos sintéticos donde la variable objetivo se define como una combinación de características continuas, simulando tanto dependencias lineales como no lineales. Para demostrar la aplicabilidad de los métodos propuestos, también incluimos un estudio de caso en tareas de clasificación del mundo real. El estudio realizado mostró que la elección del estimador de información mutua puede afectar el rendimiento de mRMR y debe ser cuidadosamente seleccionado dependiendo del conjunto de datos y los parámetros del problema examinado. La aplicación del estimador de información mutua corregido mejora el rendimiento de mRMR en la configuración examinada.
Descripción
La Relevancia Máxima y la Redundancia Mínima (mRMR) es un método de selección de características ampliamente utilizado que se aplica en una amplia gama de aplicaciones en diversos campos. mRMR añade al subconjunto óptimo las características que tienen alta relevancia para la variable objetivo mientras tienen una mínima redundancia entre sí. La información mutua es un componente clave de mRMR, ya que mide el grado de dependencia entre dos variables. Sin embargo, el valor real de la información mutua no se conoce y necesita ser estimado. El objetivo de este estudio es examinar si la elección del estimador de información mutua afecta el rendimiento de mRMR. Para ello, se comparan tres variaciones de mRMR. La primera utiliza la estimación de ventana de Parzen para evaluar la información mutua entre variables continuas. La segunda se basa en la partición equidistante utilizando el método de celdas, mientras que la tercera incorpora una versión corregida por sesgo del mismo estimador. Todos los métodos se prueban con y sin un término de regularización en el denominador de mRMR, introducido para mejorar la estabilidad numérica. La evaluación se lleva a cabo en conjuntos de datos sintéticos donde la variable objetivo se define como una combinación de características continuas, simulando tanto dependencias lineales como no lineales. Para demostrar la aplicabilidad de los métodos propuestos, también incluimos un estudio de caso en tareas de clasificación del mundo real. El estudio realizado mostró que la elección del estimador de información mutua puede afectar el rendimiento de mRMR y debe ser cuidadosamente seleccionado dependiendo del conjunto de datos y los parámetros del problema examinado. La aplicación del estimador de información mutua corregido mejora el rendimiento de mRMR en la configuración examinada.