Mejorando la categorización de texto de vecinos más cercanos a gran escala con autoencoders de etiquetas
Autores: Ribadas-Pena, Francisco J.; Cao, Shuyuan; Darriba Bilbao, Víctor M.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Mejorando la categorización de texto de vecinos más cercanos a gran escala con autoencoders de etiquetas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Método propuesto
Aprendizaje perezoso multi-etiqueta
Indexación semántica
Colecciones de documentos
Vocabularios de etiquetas
Configuraciones de autoencoder
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
En este documento, presentamos un enfoque de aprendizaje perezoso multi-etiqueta para tratar la indexación semántica automática en grandes colecciones de documentos en presencia de vocabularios de etiquetas complejos y estructurados con alta correlación entre etiquetas. El método propuesto es una evolución del algoritmo de los k-Vecinos Más Cercanos tradicional que utiliza un gran autoencoder entrenado para mapear el amplio espacio de etiquetas a un espacio latente de tamaño reducido y regenerar las etiquetas predichas a partir de este espacio latente. Hemos evaluado nuestra propuesta en una gran parte de la colección de documentos biomédicos MEDLINE que utiliza el tesauro de Encabezados de Materias Médicas (MeSH) como vocabulario controlado. En nuestros experimentos proponemos y evaluamos varios enfoques de representación de documentos y diferentes configuraciones de autoencoder de etiquetas.
Descripción
En este documento, presentamos un enfoque de aprendizaje perezoso multi-etiqueta para tratar la indexación semántica automática en grandes colecciones de documentos en presencia de vocabularios de etiquetas complejos y estructurados con alta correlación entre etiquetas. El método propuesto es una evolución del algoritmo de los k-Vecinos Más Cercanos tradicional que utiliza un gran autoencoder entrenado para mapear el amplio espacio de etiquetas a un espacio latente de tamaño reducido y regenerar las etiquetas predichas a partir de este espacio latente. Hemos evaluado nuestra propuesta en una gran parte de la colección de documentos biomédicos MEDLINE que utiliza el tesauro de Encabezados de Materias Médicas (MeSH) como vocabulario controlado. En nuestros experimentos proponemos y evaluamos varios enfoques de representación de documentos y diferentes configuraciones de autoencoder de etiquetas.