Análisis Comparativo de Modelos Basados en PLN para la Clasificación de Empresas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Análisis Comparativo de Modelos Basados en PLN para la Clasificación de Empresas

Autores: Rizinski, Maryan; Jankov, Andrej; Sankaradas, Vignesh; Pinsky, Eugene; Mishkovski, Igor; Trajanov, Dimitar

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Análisis Comparativo de Modelos Basados en PLN para la Clasificación de Empresas

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Clasificación de empresas

Procesamiento de lenguaje natural

Modelos basados en NLP

RoBERTa

Clasificadores One-vs-Rest

Algoritmos de aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La tarea de clasificación de empresas se realiza tradicionalmente utilizando estándares establecidos, como el Estándar de Clasificación de la Industria Global (GICS). Sin embargo, estos enfoques dependen en gran medida de esfuerzos manuales laboriosos por parte de expertos en la materia, lo que resulta en asignaciones lentas, costosas y específicas de proveedores. Por lo tanto, investigamos los recientes avances en procesamiento de lenguaje natural (NLP) para automatizar el proceso de clasificación de empresas. En particular, empleamos y evaluamos varios modelos basados en NLP, incluyendo aprendizaje cero-shot, clasificación One-vs-Rest, clasificadores multicategoría y clasificación asistida por ChatGPT. Realizamos una comparación exhaustiva entre estos modelos para evaluar su efectividad en la tarea de clasificación de empresas. La evaluación utiliza el conjunto de datos de Wharton Research Data Services (WRDS), que consiste en descripciones textuales de empresas que cotizan en bolsa. Nuestros hallazgos revelan que los clasificadores RoBERTa y One-vs-Rest superan a los otros métodos, logrando puntuaciones F1 de 0.81 y 0.80 en el conjunto de datos WRDS, respectivamente. Estos resultados demuestran que los algoritmos de aprendizaje profundo ofrecen el potencial para automatizar, estandarizar y actualizar continuamente los sistemas de clasificación de manera eficiente y rentable. Además, introducimos varias mejoras a las técnicas de clasificación multicategoría: (1) en la metodología cero-shot, utilizamos TF-IDF para mejorar la representación del sector, lo que produce una mayor precisión en comparación con los clasificadores cero-shot estándar; (2) a continuación, utilizamos ChatGPT para la generación de conjuntos de datos, revelando potencial en escenarios donde faltan conjuntos de datos de descripciones de empresas; y (3) también empleamos K-Fold para reducir el ruido en el conjunto de datos WRDS, seguido de la realización de experimentos para evaluar el impacto de la reducción de ruido en los resultados de clasificación de empresas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro