Una Nueva Arquitectura de Aprendizaje por Conjuntos de Múltiples Vistas para Mejorar la Clasificación de Texto Estructurado
Autores: Gonçalves, Carlos Adriano; Vieira, Adrián Seara; Gonçalves, Célia Talma; Camacho, Rui; Iglesias, Eva Lorenzo; Diz, Lourdes Borrajo
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Una Nueva Arquitectura de Aprendizaje por Conjuntos de Múltiples Vistas para Mejorar la Clasificación de Texto Estructurado
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje en conjunto
Múltiples vistas
Clasificación de texto
Generalización por apilamiento
Máquina de vectores de soporte
Minería de texto biomédico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El aprendizaje en conjunto de múltiples vistas explota la información de las vistas de datos. Para probar su eficiencia en la clasificación de texto completo, se ha implementado una técnica donde las vistas corresponden a las secciones del documento. Para la clasificación y predicción, utilizamos una generalización por apilamiento basada en la idea de que diferentes algoritmos de aprendizaje proporcionan explicaciones complementarias de los datos. El presente estudio implementa el enfoque de apilamiento utilizando algoritmos de máquinas de soporte vectorial como base y una implementación de C4.5 como meta-aprendiz. Las vistas se crean con documentos de texto completo biomédicos de OHSUMED. Los resultados experimentales conducen a la conclusión sostenida de que la aplicación de técnicas de múltiples vistas a textos completos mejora significativamente la tarea de clasificación de textos, proporcionando una contribución significativa para la investigación en minería de textos biomédicos. También tenemos evidencia para concluir que los conjuntos de datos enriquecidos con texto de ciertas secciones son mejores que usar solo títulos y resúmenes.
Descripción
El aprendizaje en conjunto de múltiples vistas explota la información de las vistas de datos. Para probar su eficiencia en la clasificación de texto completo, se ha implementado una técnica donde las vistas corresponden a las secciones del documento. Para la clasificación y predicción, utilizamos una generalización por apilamiento basada en la idea de que diferentes algoritmos de aprendizaje proporcionan explicaciones complementarias de los datos. El presente estudio implementa el enfoque de apilamiento utilizando algoritmos de máquinas de soporte vectorial como base y una implementación de C4.5 como meta-aprendiz. Las vistas se crean con documentos de texto completo biomédicos de OHSUMED. Los resultados experimentales conducen a la conclusión sostenida de que la aplicación de técnicas de múltiples vistas a textos completos mejora significativamente la tarea de clasificación de textos, proporcionando una contribución significativa para la investigación en minería de textos biomédicos. También tenemos evidencia para concluir que los conjuntos de datos enriquecidos con texto de ciertas secciones son mejores que usar solo títulos y resúmenes.