Un Estudio Comparativo de Algoritmos de Procesamiento de Lenguaje Natural Basados en Métodos Tradicionales, de Conjuntos y de Redes Neuronales
Autores: Chikhi, Achraf; Mohammadi Ziabari, Seyed Sahand; van Essen, Jan-Willem
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un Estudio Comparativo de Algoritmos de Procesamiento de Lenguaje Natural Basados en Métodos Tradicionales, de Conjuntos y de Redes Neuronales
Categoría
Gestión y administración
Subcategoría
Gestión de recursos
Palabras clave
Análisis de datos
Auditorías financieras
RCSFI
Técnicas de PLN basadas en redes neuronales
Enfoques jerárquicos
DistilBERT
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
El análisis de datos preciso es una parte importante de las auditorías financieras basadas en datos. Dada la mayor disponibilidad de datos y los diversos sistemas de los cuales se generan los archivos de auditoría, RCSFI proporciona una forma de estandarización en nombre del análisis. Esta investigación intentó automatizar esta tarea de clasificación de texto jerárquico con el fin de ahorrar tiempo a los auditores financieros y evitar errores. Varios estudios han demostrado que los modelos basados en conjuntos y las técnicas de procesamiento de lenguaje natural (NLP) basadas en redes neuronales lograron resultados alentadores para problemas de clasificación en varios dominios. Sin embargo, ha habido una investigación empírica limitada que compare el rendimiento de ambas técnicas mencionadas en un entorno de clasificación jerárquica de múltiples clases. Además, las técnicas de NLP basadas en redes neuronales se han aplicado comúnmente a conjuntos de datos en inglés y no a conjuntos de datos financieros en neerlandés. Adicionalmente, esta investigación tuvo en cuenta la implementación de enfoques jerárquicos para los modelos tradicionales y basados en conjuntos y encontró que el rendimiento no aumentó al implementar los enfoques jerárquicos incluidos. DistilBERT logró las puntuaciones más altas en los niveles 1-2-3-4 y superó a los modelos tradicionales y basados en conjuntos. El modelo obtuvo un F1 de 94.50% para los niveles 1-2-3-4. DistilBERT también superó a BERTje en los niveles 1-2-3-4 a pesar de que BERTje fue específicamente preentrenado en conjuntos de datos neerlandeses.
Descripción
El análisis de datos preciso es una parte importante de las auditorías financieras basadas en datos. Dada la mayor disponibilidad de datos y los diversos sistemas de los cuales se generan los archivos de auditoría, RCSFI proporciona una forma de estandarización en nombre del análisis. Esta investigación intentó automatizar esta tarea de clasificación de texto jerárquico con el fin de ahorrar tiempo a los auditores financieros y evitar errores. Varios estudios han demostrado que los modelos basados en conjuntos y las técnicas de procesamiento de lenguaje natural (NLP) basadas en redes neuronales lograron resultados alentadores para problemas de clasificación en varios dominios. Sin embargo, ha habido una investigación empírica limitada que compare el rendimiento de ambas técnicas mencionadas en un entorno de clasificación jerárquica de múltiples clases. Además, las técnicas de NLP basadas en redes neuronales se han aplicado comúnmente a conjuntos de datos en inglés y no a conjuntos de datos financieros en neerlandés. Adicionalmente, esta investigación tuvo en cuenta la implementación de enfoques jerárquicos para los modelos tradicionales y basados en conjuntos y encontró que el rendimiento no aumentó al implementar los enfoques jerárquicos incluidos. DistilBERT logró las puntuaciones más altas en los niveles 1-2-3-4 y superó a los modelos tradicionales y basados en conjuntos. El modelo obtuvo un F1 de 94.50% para los niveles 1-2-3-4. DistilBERT también superó a BERTje en los niveles 1-2-3-4 a pesar de que BERTje fue específicamente preentrenado en conjuntos de datos neerlandeses.