Entendiendo Colecciones de Conjuntos de Datos Relacionados Usando Coresets MMD Dependientes
Autores: Williamson, Sinead A.; Henderson, Jette
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Entendiendo Colecciones de Conjuntos de Datos Relacionados Usando Coresets MMD Dependientes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Comprensión
Conjuntos de datos
Sub-representa
Subpoblaciones
Modelos
Generalizar
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Entender cómo difieren dos conjuntos de datos puede ayudarnos a determinar si un conjunto de datos subrepresenta ciertas subpoblaciones y proporciona información sobre qué tan bien los modelos se generalizarán entre conjuntos de datos. Los puntos representativos seleccionados por un coreset de discrepancia máxima de medias (MMD) pueden proporcionar resúmenes interpretables de un solo conjunto de datos, pero no son fácilmente comparables entre conjuntos de datos. En este artículo, introducimos los coresets MMD dependientes, un método de resumen de datos para colecciones de conjuntos de datos que facilita la comparación de distribuciones. Mostramos que los coresets MMD dependientes son útiles para entender múltiples conjuntos de datos relacionados y para comprender la generalización del modelo entre dichos conjuntos de datos.
Descripción
Entender cómo difieren dos conjuntos de datos puede ayudarnos a determinar si un conjunto de datos subrepresenta ciertas subpoblaciones y proporciona información sobre qué tan bien los modelos se generalizarán entre conjuntos de datos. Los puntos representativos seleccionados por un coreset de discrepancia máxima de medias (MMD) pueden proporcionar resúmenes interpretables de un solo conjunto de datos, pero no son fácilmente comparables entre conjuntos de datos. En este artículo, introducimos los coresets MMD dependientes, un método de resumen de datos para colecciones de conjuntos de datos que facilita la comparación de distribuciones. Mostramos que los coresets MMD dependientes son útiles para entender múltiples conjuntos de datos relacionados y para comprender la generalización del modelo entre dichos conjuntos de datos.