Clasificación de correos electrónicos en rumano de múltiples tareas en un contexto empresarial
Autores: Dima, Alexandru; Ruseti, Stefan; Iorga, Denis; Banica, Cosmin Karl; Dascalu, Mihai
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Clasificación de correos electrónicos en rumano de múltiples tareas en un contexto empresarial
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sistemas de clasificación
Correo electrónico
Contexto empresarial
Idioma rumano
Conjuntos de datos públicos
Sistema automatizado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los sistemas de clasificación de correos electrónicos son esenciales para manejar y organizar el masivo flujo de comunicación, especialmente en un contexto empresarial. Aunque existen muchas soluciones, la falta de categorías de clasificación estandarizadas limita su aplicabilidad. Además, la falta de conjuntos de datos públicos orientados a los negocios en idioma rumano dificulta el desarrollo de tales soluciones. Con este fin, presentamos un sistema de clasificación automatizada de correos electrónicos versátil basado en un nuevo conjunto de datos público de 1447 correos electrónicos orientados a los negocios en rumano, anotados manualmente. Nuestro corpus está anotado con 5 etiquetas relacionadas con tokens, así como 5 clases relacionadas con secuencias. Establecemos una sólida línea base utilizando modelos Transformer preentrenados para la clasificación de tokens y la clasificación multitarea, logrando una puntuación F1 de 0.752 y 0.764, respectivamente. Publicamos nuestro código junto con el conjunto de datos de correos electrónicos etiquetados.
Descripción
Los sistemas de clasificación de correos electrónicos son esenciales para manejar y organizar el masivo flujo de comunicación, especialmente en un contexto empresarial. Aunque existen muchas soluciones, la falta de categorías de clasificación estandarizadas limita su aplicabilidad. Además, la falta de conjuntos de datos públicos orientados a los negocios en idioma rumano dificulta el desarrollo de tales soluciones. Con este fin, presentamos un sistema de clasificación automatizada de correos electrónicos versátil basado en un nuevo conjunto de datos público de 1447 correos electrónicos orientados a los negocios en rumano, anotados manualmente. Nuestro corpus está anotado con 5 etiquetas relacionadas con tokens, así como 5 clases relacionadas con secuencias. Establecemos una sólida línea base utilizando modelos Transformer preentrenados para la clasificación de tokens y la clasificación multitarea, logrando una puntuación F1 de 0.752 y 0.764, respectivamente. Publicamos nuestro código junto con el conjunto de datos de correos electrónicos etiquetados.