Un metodología para extraer conocimiento de conjuntos de datos utilizando ML
Autores: Sánchez-de-Madariaga, Ricardo; Pascual Carrasco, Mario; Muñoz Carrero, Adolfo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un metodología para extraer conocimiento de conjuntos de datos utilizando ML
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Relación
Algoritmos de aprendizaje automático
Extracción de conocimiento
Conjuntos de datos
Subconjuntos de características
Experiencia médica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Este estudio tiene como objetivo verificar si existe alguna relación entre las diferentes salidas de clasificación producidas por distintos algoritmos de ML y la relevancia de los datos que clasifican, para abordar el problema de extracción de conocimiento (KE) de conjuntos de datos. Si tal relación existe, el objetivo principal de esta investigación es utilizarla para mejorar el rendimiento en la importante tarea de KE de conjuntos de datos. Se desarrolló una nueva generación de conjuntos de datos y una nueva metodología de medición de clasificación de ML para determinar si los subconjuntos de características (FSs) mejor clasificados por un algoritmo de ML específico correspondían a las combinaciones de características más relevantes para KE. Se extrajo experiencia médica para determinar la relevancia del conocimiento utilizando dos LLMs, a saber, chat GPT-4o y Google Gemini 2.5. Algunos algoritmos de ML específicos se ajustan mucho mejor que otros para un conjunto de datos de trabajo extraído de una distribución de probabilidad dada. Clasifican mejor los FSs que contienen combinaciones de características que son particularmente relevantes para el conocimiento. Esto implica que, al utilizar un algoritmo de ML específico, podemos extraer conocimiento científico útil. El algoritmo de ML que mejor se ajusta no se conoce a priori. Sin embargo, podemos identificarlo usando una pequeña cantidad de experiencia médica, y tenemos una herramienta poderosa para extraer conocimiento (médico) de conjuntos de datos utilizando ML.
Descripción
Este estudio tiene como objetivo verificar si existe alguna relación entre las diferentes salidas de clasificación producidas por distintos algoritmos de ML y la relevancia de los datos que clasifican, para abordar el problema de extracción de conocimiento (KE) de conjuntos de datos. Si tal relación existe, el objetivo principal de esta investigación es utilizarla para mejorar el rendimiento en la importante tarea de KE de conjuntos de datos. Se desarrolló una nueva generación de conjuntos de datos y una nueva metodología de medición de clasificación de ML para determinar si los subconjuntos de características (FSs) mejor clasificados por un algoritmo de ML específico correspondían a las combinaciones de características más relevantes para KE. Se extrajo experiencia médica para determinar la relevancia del conocimiento utilizando dos LLMs, a saber, chat GPT-4o y Google Gemini 2.5. Algunos algoritmos de ML específicos se ajustan mucho mejor que otros para un conjunto de datos de trabajo extraído de una distribución de probabilidad dada. Clasifican mejor los FSs que contienen combinaciones de características que son particularmente relevantes para el conocimiento. Esto implica que, al utilizar un algoritmo de ML específico, podemos extraer conocimiento científico útil. El algoritmo de ML que mejor se ajusta no se conoce a priori. Sin embargo, podemos identificarlo usando una pequeña cantidad de experiencia médica, y tenemos una herramienta poderosa para extraer conocimiento (médico) de conjuntos de datos utilizando ML.