logo móvil
Contáctanos

Clasificación de documentos de longitud larga mediante agregación de características convolucionales locales

Autores: Liu, Liu; Liu, Kaile; Cong, Zhenghai; Zhao, Jiali; Ji, Yefei; He, Jun

Idioma: Inglés

Editor: MDPI

Año: 2018

Descargar PDF

Acceso abierto

Artículo científico
2018

Clasificación de documentos de longitud larga mediante agregación de características convolucionales locales


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Aumento exponencial
Reseñas en línea
Clasificación de documentos
Análisis de sentimientos
Aprendizaje profundo
Característica convolucional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
El aumento exponencial en las reseñas y recomendaciones en línea hace que la clasificación de documentos y el análisis de sentimientos sean un tema candente en la investigación académica e industrial. Los métodos tradicionales de clasificación de documentos basados en aprendizaje profundo requieren el uso de información textual completa para extraer características. En este documento, para abordar documentos largos, propusimos tres métodos que utilizan la agregación de características convolucionales locales para implementar la clasificación de documentos. El primer método propuesto dibuja aleatoriamente bloques de palabras continuas en el documento completo. Cada bloque luego se introduce en la red neuronal convolucional para extraer características y luego se concatenan para producir la probabilidad de clasificación a través de un clasificador. El segundo modelo mejora el primero al capturar la información de orden contextual de los bloques muestreados con una red neuronal recurrente. El tercer modelo está inspirado en el modelo de atención recurrente (RAM), en el que se introduce un módulo de aprendizaje por refuerzo para actuar como controlador para seleccionar la siguiente posición del bloque en función del estado recurrente. Los experimentos en nuestro conjunto de datos de artículos de arXiv de cuatro clases recopilados muestran que los tres modelos propuestos funcionan bien, y el modelo RAM logra la mejor precisión de prueba con la menor información.

Otros recursos que podrían interesarte

Temas Virtualpro