Aplicación de procesamiento de lenguaje natural y algoritmo genético para ajustar los hiperparámetros de clasificadores para el análisis de actividades económicas
Autores: Malashin, Ivan; Masich, Igor; Tynchenko, Vadim; Nelyub, Vladimir; Borodulin, Aleksei; Gantimurov, Andrei
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aplicación de procesamiento de lenguaje natural y algoritmo genético para ajustar los hiperparámetros de clasificadores para el análisis de actividades económicas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Método
Descriptores de actividad económica
Nomenclatura de Actividades Económicas
Técnicas de aprendizaje automático
Procesamiento de lenguaje natural
Algoritmo genético
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Este estudio propone un método para clasificar descriptores de actividad económica para que coincidan con los códigos de la Nomenclatura de Actividades Económicas (NACE), empleando una combinación de técnicas de aprendizaje automático y evaluación de expertos. Al aprovechar métodos de procesamiento de lenguaje natural (NLP) para vectorizar los descriptores de actividad y utilizando la optimización de algoritmos genéticos (GA) para ajustar los hiperparámetros en clasificadores multiclase como Naive Bayes, Árboles de Decisión, Bosques Aleatorios y Perceptrones Multicapa, nuestro objetivo es aumentar la precisión y confiabilidad de un sistema de clasificación económica. Este sistema enfrenta desafíos debido a la ausencia de etiquetas objetivo precisas en el conjunto de datos. Por lo tanto, es esencial verificar inicialmente la precisión de los métodos utilizados basados en evaluaciones de expertos utilizando un conjunto de datos pequeño antes de generalizar a uno más grande.
Descripción
Este estudio propone un método para clasificar descriptores de actividad económica para que coincidan con los códigos de la Nomenclatura de Actividades Económicas (NACE), empleando una combinación de técnicas de aprendizaje automático y evaluación de expertos. Al aprovechar métodos de procesamiento de lenguaje natural (NLP) para vectorizar los descriptores de actividad y utilizando la optimización de algoritmos genéticos (GA) para ajustar los hiperparámetros en clasificadores multiclase como Naive Bayes, Árboles de Decisión, Bosques Aleatorios y Perceptrones Multicapa, nuestro objetivo es aumentar la precisión y confiabilidad de un sistema de clasificación económica. Este sistema enfrenta desafíos debido a la ausencia de etiquetas objetivo precisas en el conjunto de datos. Por lo tanto, es esencial verificar inicialmente la precisión de los métodos utilizados basados en evaluaciones de expertos utilizando un conjunto de datos pequeño antes de generalizar a uno más grande.