Factorización de matriz no negativa semisupervisada guiada
Autores: Li, Pengyu; Tseng, Christine; Zheng, Yaxuan; Chew, Joyce A.; Huang, Longxiu; Jarman, Benjamin; Needell, Deanna
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Factorización de matriz no negativa semisupervisada guiada
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Modelado de temas
Aprendizaje automático
Clasificación
Supervisado
Factorización de matrices no negativas
Orientación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
La clasificación y la modelización de temas son técnicas populares en el aprendizaje automático que extraen información de conjuntos de datos a gran escala. Al incorporar información a priori como etiquetas o características importantes, se han desarrollado métodos para realizar tareas de clasificación y modelización de temas; sin embargo, la mayoría de los métodos que pueden realizar ambas tareas no permiten guiar los temas o características. En este artículo, proponemos un método novedoso, denominado Factorización de Matriz No Negativa Semisupervisada Guiada (GSSNMF), que realiza tanto la clasificación como la modelización de temas incorporando supervisión tanto de etiquetas de clase de documento preasignadas como de palabras clave diseñadas por el usuario. Probamos el rendimiento de este método en documentos legales proporcionados por el Proyecto Inocencia de California y el conjunto de datos de 20 Newsgroups. Nuestros resultados muestran que el método propuesto mejora tanto la precisión de la clasificación como la coherencia de los temas en comparación con métodos anteriores como la Factorización de Matriz No Negativa Semisupervisada (SSNMF), la Factorización de Matriz No Negativa Guiada (Guided NMF) y la NMF Supervisada por Temas.
Descripción
La clasificación y la modelización de temas son técnicas populares en el aprendizaje automático que extraen información de conjuntos de datos a gran escala. Al incorporar información a priori como etiquetas o características importantes, se han desarrollado métodos para realizar tareas de clasificación y modelización de temas; sin embargo, la mayoría de los métodos que pueden realizar ambas tareas no permiten guiar los temas o características. En este artículo, proponemos un método novedoso, denominado Factorización de Matriz No Negativa Semisupervisada Guiada (GSSNMF), que realiza tanto la clasificación como la modelización de temas incorporando supervisión tanto de etiquetas de clase de documento preasignadas como de palabras clave diseñadas por el usuario. Probamos el rendimiento de este método en documentos legales proporcionados por el Proyecto Inocencia de California y el conjunto de datos de 20 Newsgroups. Nuestros resultados muestran que el método propuesto mejora tanto la precisión de la clasificación como la coherencia de los temas en comparación con métodos anteriores como la Factorización de Matriz No Negativa Semisupervisada (SSNMF), la Factorización de Matriz No Negativa Guiada (Guided NMF) y la NMF Supervisada por Temas.