logo móvil
Contáctanos

Etiquetado de Temas Sin Ejemplos para Clasificación de Peligros

Autores: Rondinelli, Andrea; Bongiovanni, Lorenzo; Basile, Valerio

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Etiquetado de Temas Sin Ejemplos para Clasificación de Peligros


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Clasificación de temas
Enfoque de cero disparos
Enfoque supervisado
Conjunto de datos de detección de peligros
Incrustador de texto preentrenado
Técnicas de reducción de dimensionalidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La clasificación de temas es la tarea de asignar texto a un conjunto de etiquetas significativas conocidas de antemano. Este escenario es muy común tanto en la academia como en la industria siempre que haya necesidad de categorizar un gran corpus de documentos según etiquetas personalizadas. Sin embargo, el enfoque supervisado estándar requiere que miles de documentos sean etiquetados manualmente, y un esfuerzo adicional cada vez que cambia la taxonomía de etiquetas. Para obviar estas desventajas, investigamos la aplicación de un enfoque de cero disparos para la clasificación de temas. En este contexto, un subconjunto de estos temas, o incluso todos ellos, no se ve durante el tiempo de entrenamiento, desafiando al modelo a clasificar ejemplos correspondientes utilizando información adicional. Primero mostramos cómo la clasificación de cero disparos puede realizar la tarea de clasificación de temas sin ninguna supervisión. En segundo lugar, construimos un nuevo conjunto de datos de detección de peligros seleccionando manualmente tweets recopilados por la Fundación LINKS para esta tarea, donde demostramos la efectividad de nuestro método sin costo en un problema del mundo real. La idea es aprovechar un embebedor de texto preentrenado (MPNet) para mapear tanto el texto como los temas en el mismo espacio vectorial semántico donde pueden ser comparados. Demostramos que estos espacios semánticos están mejor alineados cuando su dimensión se reduce, manteniendo solo la información más útil. Investigamos tres técnicas diferentes de reducción de dimensionalidad, a saber, proyección lineal, auto-codificación y PCA. Usando la puntuación macro F1 como la métrica estándar, se encontró que PCA es la técnica de mejor rendimiento, registrando mejoras para cada conjunto de datos en comparación con el rendimiento en la línea base.

Otros recursos que podrían interesarte

Temas Virtualpro