Modelo de IA para la Clasificación de la Industria Basado en Datos de Sitios Web
Autores: Jagri, Timotej; Herman, Alja
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Modelo de IA para la Clasificación de la Industria Basado en Datos de Sitios Web
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aplicación
Modelo BERT
Clasificación de texto multicategoría
Categorías de la industria
Precisiones de clasificación
Fase de ajuste fino
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta un amplio estudio sobre la aplicación del modelo BERT (Representaciones de Codificadores Bidireccionales a partir de Transformadores) para la clasificación de texto multicategoría, centrándose específicamente en categorizar descripciones de negocios en 1 de 13 categorías industriales distintas. El estudio involucró una fase de ajuste fino detallada que resultó en una disminución constante de la pérdida de entrenamiento, indicativa de la eficacia del aprendizaje del modelo. La validación posterior en un conjunto de datos separado reveló el sólido rendimiento del modelo, con precisiones de clasificación que oscilan entre el 83.5% y el 92.6% en diferentes clases industriales. Nuestro modelo mostró una alta precisión general del 88.23%, junto con un robusto puntaje F1 de 0.88. Estos resultados destacan la capacidad del modelo para capturar y utilizar las características matizadas de los datos textuales pertinentes a diversas industrias. El modelo tiene la capacidad de aprovechar datos web en tiempo real, lo que permite la utilización de la información más reciente y actualizada que afecta al portafolio de productos de la empresa. Basándonos en el rendimiento y las características del modelo, creemos que el proceso de valoración relativa puede mejorarse drásticamente.
Descripción
Este documento presenta un amplio estudio sobre la aplicación del modelo BERT (Representaciones de Codificadores Bidireccionales a partir de Transformadores) para la clasificación de texto multicategoría, centrándose específicamente en categorizar descripciones de negocios en 1 de 13 categorías industriales distintas. El estudio involucró una fase de ajuste fino detallada que resultó en una disminución constante de la pérdida de entrenamiento, indicativa de la eficacia del aprendizaje del modelo. La validación posterior en un conjunto de datos separado reveló el sólido rendimiento del modelo, con precisiones de clasificación que oscilan entre el 83.5% y el 92.6% en diferentes clases industriales. Nuestro modelo mostró una alta precisión general del 88.23%, junto con un robusto puntaje F1 de 0.88. Estos resultados destacan la capacidad del modelo para capturar y utilizar las características matizadas de los datos textuales pertinentes a diversas industrias. El modelo tiene la capacidad de aprovechar datos web en tiempo real, lo que permite la utilización de la información más reciente y actualizada que afecta al portafolio de productos de la empresa. Basándonos en el rendimiento y las características del modelo, creemos que el proceso de valoración relativa puede mejorarse drásticamente.