Etiquetado de Temas Sin Ejemplos para Clasificación de Peligros

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Etiquetado de Temas Sin Ejemplos para Clasificación de Peligros

Autores: Rondinelli, Andrea; Bongiovanni, Lorenzo; Basile, Valerio

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Etiquetado de Temas Sin Ejemplos para Clasificación de Peligros

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Clasificación de temas

Enfoque de cero disparos

Enfoque supervisado

Conjunto de datos de detección de peligros

Incrustador de texto preentrenado

Técnicas de reducción de dimensionalidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La clasificación de temas es la tarea de asignar texto a un conjunto de etiquetas significativas conocidas de antemano. Este escenario es muy común tanto en la academia como en la industria siempre que haya necesidad de categorizar un gran corpus de documentos según etiquetas personalizadas. Sin embargo, el enfoque supervisado estándar requiere que miles de documentos sean etiquetados manualmente, y un esfuerzo adicional cada vez que cambia la taxonomía de etiquetas. Para obviar estas desventajas, investigamos la aplicación de un enfoque de cero disparos para la clasificación de temas. En este contexto, un subconjunto de estos temas, o incluso todos ellos, no se ve durante el tiempo de entrenamiento, desafiando al modelo a clasificar ejemplos correspondientes utilizando información adicional. Primero mostramos cómo la clasificación de cero disparos puede realizar la tarea de clasificación de temas sin ninguna supervisión. En segundo lugar, construimos un nuevo conjunto de datos de detección de peligros seleccionando manualmente tweets recopilados por la Fundación LINKS para esta tarea, donde demostramos la efectividad de nuestro método sin costo en un problema del mundo real. La idea es aprovechar un embebedor de texto preentrenado (MPNet) para mapear tanto el texto como los temas en el mismo espacio vectorial semántico donde pueden ser comparados. Demostramos que estos espacios semánticos están mejor alineados cuando su dimensión se reduce, manteniendo solo la información más útil. Investigamos tres técnicas diferentes de reducción de dimensionalidad, a saber, proyección lineal, auto-codificación y PCA. Usando la puntuación macro F1 como la métrica estándar, se encontró que PCA es la técnica de mejor rendimiento, registrando mejoras para cada conjunto de datos en comparación con el rendimiento en la línea base.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro