Clasificación de texto jerárquica y sus fundamentos: una revisión de la investigación actual
Autores: Zangari, Alessandro; Marcuzzo, Matteo; Rizzo, Matteo; Giudice, Lorenzo; Albarelli, Andrea; Gasparetto, Andrea
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Clasificación de texto jerárquica y sus fundamentos: una revisión de la investigación actual
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Colecciones
Conceptos estructurados jerárquicamente
Métodos de clasificación de texto jerárquico
Representación de texto
Métricas de evaluación
Conjuntos de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 63
Citaciones: Sin citaciones
Si bien las colecciones de documentos suelen estar anotadas con conceptos estructurados jerárquicamente, los beneficios de estas estructuras rara vez son tenidos en cuenta por las técnicas de clasificación. Dentro de este contexto, se han ideado métodos de clasificación de texto jerárquico para aprovechar la organización de las etiquetas y mejorar el rendimiento de la clasificación. En este trabajo, nuestro objetivo es ofrecer una visión actualizada de la investigación en este campo. Comenzamos definiendo la tarea y enmarcándola dentro del área más amplia de clasificación de texto, examinando conceptos importantes compartidos como la representación de texto. Luego, nos adentramos en detalles sobre la tarea específica, proporcionando una descripción de alto nivel de sus enfoques tradicionales. Posteriormente, resumimos los métodos propuestos recientemente, destacando sus principales contribuciones. También proporcionamos estadísticas de los conjuntos de datos más comúnmente utilizados y describimos los beneficios de utilizar métricas de evaluación adaptadas a entornos jerárquicos. Finalmente, una selección de propuestas recientes se compara con líneas de base no jerárquicas en cinco conjuntos de datos específicos de dominio público. Estos conjuntos de datos, junto con nuestro código, están disponibles para investigaciones futuras.
Descripción
Si bien las colecciones de documentos suelen estar anotadas con conceptos estructurados jerárquicamente, los beneficios de estas estructuras rara vez son tenidos en cuenta por las técnicas de clasificación. Dentro de este contexto, se han ideado métodos de clasificación de texto jerárquico para aprovechar la organización de las etiquetas y mejorar el rendimiento de la clasificación. En este trabajo, nuestro objetivo es ofrecer una visión actualizada de la investigación en este campo. Comenzamos definiendo la tarea y enmarcándola dentro del área más amplia de clasificación de texto, examinando conceptos importantes compartidos como la representación de texto. Luego, nos adentramos en detalles sobre la tarea específica, proporcionando una descripción de alto nivel de sus enfoques tradicionales. Posteriormente, resumimos los métodos propuestos recientemente, destacando sus principales contribuciones. También proporcionamos estadísticas de los conjuntos de datos más comúnmente utilizados y describimos los beneficios de utilizar métricas de evaluación adaptadas a entornos jerárquicos. Finalmente, una selección de propuestas recientes se compara con líneas de base no jerárquicas en cinco conjuntos de datos específicos de dominio público. Estos conjuntos de datos, junto con nuestro código, están disponibles para investigaciones futuras.