Etiquetado de Temas Sin Ejemplos para Clasificación de Peligros
Autores: Rondinelli, Andrea; Bongiovanni, Lorenzo; Basile, Valerio
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Etiquetado de Temas Sin Ejemplos para Clasificación de Peligros
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Clasificación de temas
Enfoque de cero disparos
Enfoque supervisado
Conjunto de datos de detección de peligros
Incrustador de texto preentrenado
Técnicas de reducción de dimensionalidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La clasificación de temas es la tarea de asignar texto a un conjunto de etiquetas significativas conocidas de antemano. Este escenario es muy común tanto en la academia como en la industria siempre que haya necesidad de categorizar un gran corpus de documentos según etiquetas personalizadas. Sin embargo, el enfoque supervisado estándar requiere que miles de documentos sean etiquetados manualmente, y un esfuerzo adicional cada vez que cambia la taxonomía de etiquetas. Para obviar estas desventajas, investigamos la aplicación de un enfoque de cero disparos para la clasificación de temas. En este contexto, un subconjunto de estos temas, o incluso todos ellos, no se ve durante el tiempo de entrenamiento, desafiando al modelo a clasificar ejemplos correspondientes utilizando información adicional. Primero mostramos cómo la clasificación de cero disparos puede realizar la tarea de clasificación de temas sin ninguna supervisión. En segundo lugar, construimos un nuevo conjunto de datos de detección de peligros seleccionando manualmente tweets recopilados por la Fundación LINKS para esta tarea, donde demostramos la efectividad de nuestro método sin costo en un problema del mundo real. La idea es aprovechar un embebedor de texto preentrenado (MPNet) para mapear tanto el texto como los temas en el mismo espacio vectorial semántico donde pueden ser comparados. Demostramos que estos espacios semánticos están mejor alineados cuando su dimensión se reduce, manteniendo solo la información más útil. Investigamos tres técnicas diferentes de reducción de dimensionalidad, a saber, proyección lineal, auto-codificación y PCA. Usando la puntuación macro F1 como la métrica estándar, se encontró que PCA es la técnica de mejor rendimiento, registrando mejoras para cada conjunto de datos en comparación con el rendimiento en la línea base.
Descripción
La clasificación de temas es la tarea de asignar texto a un conjunto de etiquetas significativas conocidas de antemano. Este escenario es muy común tanto en la academia como en la industria siempre que haya necesidad de categorizar un gran corpus de documentos según etiquetas personalizadas. Sin embargo, el enfoque supervisado estándar requiere que miles de documentos sean etiquetados manualmente, y un esfuerzo adicional cada vez que cambia la taxonomía de etiquetas. Para obviar estas desventajas, investigamos la aplicación de un enfoque de cero disparos para la clasificación de temas. En este contexto, un subconjunto de estos temas, o incluso todos ellos, no se ve durante el tiempo de entrenamiento, desafiando al modelo a clasificar ejemplos correspondientes utilizando información adicional. Primero mostramos cómo la clasificación de cero disparos puede realizar la tarea de clasificación de temas sin ninguna supervisión. En segundo lugar, construimos un nuevo conjunto de datos de detección de peligros seleccionando manualmente tweets recopilados por la Fundación LINKS para esta tarea, donde demostramos la efectividad de nuestro método sin costo en un problema del mundo real. La idea es aprovechar un embebedor de texto preentrenado (MPNet) para mapear tanto el texto como los temas en el mismo espacio vectorial semántico donde pueden ser comparados. Demostramos que estos espacios semánticos están mejor alineados cuando su dimensión se reduce, manteniendo solo la información más útil. Investigamos tres técnicas diferentes de reducción de dimensionalidad, a saber, proyección lineal, auto-codificación y PCA. Usando la puntuación macro F1 como la métrica estándar, se encontró que PCA es la técnica de mejor rendimiento, registrando mejoras para cada conjunto de datos en comparación con el rendimiento en la línea base.