Clasificación de documentos de longitud larga mediante agregación de características convolucionales locales
Autores: Liu, Liu; Liu, Kaile; Cong, Zhenghai; Zhao, Jiali; Ji, Yefei; He, Jun
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Clasificación de documentos de longitud larga mediante agregación de características convolucionales locales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Aumento exponencial
Reseñas en línea
Clasificación de documentos
Análisis de sentimientos
Aprendizaje profundo
Característica convolucional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
El aumento exponencial en las reseñas y recomendaciones en línea hace que la clasificación de documentos y el análisis de sentimientos sean un tema candente en la investigación académica e industrial. Los métodos tradicionales de clasificación de documentos basados en aprendizaje profundo requieren el uso de información textual completa para extraer características. En este documento, para abordar documentos largos, propusimos tres métodos que utilizan la agregación de características convolucionales locales para implementar la clasificación de documentos. El primer método propuesto dibuja aleatoriamente bloques de palabras continuas en el documento completo. Cada bloque luego se introduce en la red neuronal convolucional para extraer características y luego se concatenan para producir la probabilidad de clasificación a través de un clasificador. El segundo modelo mejora el primero al capturar la información de orden contextual de los bloques muestreados con una red neuronal recurrente. El tercer modelo está inspirado en el modelo de atención recurrente (RAM), en el que se introduce un módulo de aprendizaje por refuerzo para actuar como controlador para seleccionar la siguiente posición del bloque en función del estado recurrente. Los experimentos en nuestro conjunto de datos de artículos de arXiv de cuatro clases recopilados muestran que los tres modelos propuestos funcionan bien, y el modelo RAM logra la mejor precisión de prueba con la menor información.
Descripción
El aumento exponencial en las reseñas y recomendaciones en línea hace que la clasificación de documentos y el análisis de sentimientos sean un tema candente en la investigación académica e industrial. Los métodos tradicionales de clasificación de documentos basados en aprendizaje profundo requieren el uso de información textual completa para extraer características. En este documento, para abordar documentos largos, propusimos tres métodos que utilizan la agregación de características convolucionales locales para implementar la clasificación de documentos. El primer método propuesto dibuja aleatoriamente bloques de palabras continuas en el documento completo. Cada bloque luego se introduce en la red neuronal convolucional para extraer características y luego se concatenan para producir la probabilidad de clasificación a través de un clasificador. El segundo modelo mejora el primero al capturar la información de orden contextual de los bloques muestreados con una red neuronal recurrente. El tercer modelo está inspirado en el modelo de atención recurrente (RAM), en el que se introduce un módulo de aprendizaje por refuerzo para actuar como controlador para seleccionar la siguiente posición del bloque en función del estado recurrente. Los experimentos en nuestro conjunto de datos de artículos de arXiv de cuatro clases recopilados muestran que los tres modelos propuestos funcionan bien, y el modelo RAM logra la mejor precisión de prueba con la menor información.