Mejora en la Eficiencia de un Algoritmo de Clasificación de Texto Multi-Etiqueta Distribuido Utilizando Infraestructura y Datos Relacionados con la Tarea
Autores: Sarnovsky, Martin; Olejnik, Marek
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Mejora en la Eficiencia de un Algoritmo de Clasificación de Texto Multi-Etiqueta Distribuido Utilizando Infraestructura y Datos Relacionados con la Tarea
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Computación distribuida
Métodos de optimización
Modelo de minería de texto
Implementaciones distribuidas
Extracción de información
Uso de recursos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las tecnologías de computación distribuida permiten resolver una amplia variedad de tareas que utilizan grandes cantidades de datos. Varios paradigmas y tecnologías ya se utilizan ampliamente, pero muchos de ellos carecen de optimización en el uso de recursos. El objetivo de este artículo es presentar los métodos de optimización utilizados para aumentar la eficiencia de las implementaciones distribuidas de un modelo de minería de texto, utilizando información sobre la tarea de minería de texto extraída de los datos y información sobre el estado actual del entorno distribuido obtenida de un nodo computacional, y mejorar la distribución de la tarea en la infraestructura distribuida. Se desarrollan e implementan dos soluciones de optimización, ambas basadas en la predicción de la duración esperada de la tarea en la infraestructura existente. Las soluciones se evalúan experimentalmente en un escenario donde se construye un clasificador multi-etiqueta basado en árboles distribuido, basado en dos colecciones de datos de texto estándar.
Descripción
Las tecnologías de computación distribuida permiten resolver una amplia variedad de tareas que utilizan grandes cantidades de datos. Varios paradigmas y tecnologías ya se utilizan ampliamente, pero muchos de ellos carecen de optimización en el uso de recursos. El objetivo de este artículo es presentar los métodos de optimización utilizados para aumentar la eficiencia de las implementaciones distribuidas de un modelo de minería de texto, utilizando información sobre la tarea de minería de texto extraída de los datos y información sobre el estado actual del entorno distribuido obtenida de un nodo computacional, y mejorar la distribución de la tarea en la infraestructura distribuida. Se desarrollan e implementan dos soluciones de optimización, ambas basadas en la predicción de la duración esperada de la tarea en la infraestructura existente. Las soluciones se evalúan experimentalmente en un escenario donde se construye un clasificador multi-etiqueta basado en árboles distribuido, basado en dos colecciones de datos de texto estándar.