logo móvil
Contáctanos

Análisis Comparativo de Modelos Basados en PLN para la Clasificación de Empresas

Autores: Rizinski, Maryan; Jankov, Andrej; Sankaradas, Vignesh; Pinsky, Eugene; Mishkovski, Igor; Trajanov, Dimitar

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Análisis Comparativo de Modelos Basados en PLN para la Clasificación de Empresas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Clasificación de empresas
Procesamiento de lenguaje natural
Modelos basados en NLP
RoBERTa
Clasificadores One-vs-Rest
Algoritmos de aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La tarea de clasificación de empresas se realiza tradicionalmente utilizando estándares establecidos, como el Estándar de Clasificación de la Industria Global (GICS). Sin embargo, estos enfoques dependen en gran medida de esfuerzos manuales laboriosos por parte de expertos en la materia, lo que resulta en asignaciones lentas, costosas y específicas de proveedores. Por lo tanto, investigamos los recientes avances en procesamiento de lenguaje natural (NLP) para automatizar el proceso de clasificación de empresas. En particular, empleamos y evaluamos varios modelos basados en NLP, incluyendo aprendizaje cero-shot, clasificación One-vs-Rest, clasificadores multicategoría y clasificación asistida por ChatGPT. Realizamos una comparación exhaustiva entre estos modelos para evaluar su efectividad en la tarea de clasificación de empresas. La evaluación utiliza el conjunto de datos de Wharton Research Data Services (WRDS), que consiste en descripciones textuales de empresas que cotizan en bolsa. Nuestros hallazgos revelan que los clasificadores RoBERTa y One-vs-Rest superan a los otros métodos, logrando puntuaciones F1 de 0.81 y 0.80 en el conjunto de datos WRDS, respectivamente. Estos resultados demuestran que los algoritmos de aprendizaje profundo ofrecen el potencial para automatizar, estandarizar y actualizar continuamente los sistemas de clasificación de manera eficiente y rentable. Además, introducimos varias mejoras a las técnicas de clasificación multicategoría: (1) en la metodología cero-shot, utilizamos TF-IDF para mejorar la representación del sector, lo que produce una mayor precisión en comparación con los clasificadores cero-shot estándar; (2) a continuación, utilizamos ChatGPT para la generación de conjuntos de datos, revelando potencial en escenarios donde faltan conjuntos de datos de descripciones de empresas; y (3) también empleamos K-Fold para reducir el ruido en el conjunto de datos WRDS, seguido de la realización de experimentos para evaluar el impacto de la reducción de ruido en los resultados de clasificación de empresas.

Otros recursos que podrían interesarte

Temas Virtualpro