Aprendiendo el estilo a través de SN-gramas mixtos: una evaluación en la atribución de autoría
Autores: Posadas-Durán, Juan Pablo Francisco; Ríos-Toledo, Germán; Velázquez-Lozada, Erick; Osuna-Coutiño, J. A. de Jesús; Pérez-Patricio, Madaín; Pech May, Fernando
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendiendo el estilo a través de SN-gramas mixtos: una evaluación en la atribución de autoría
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Atribución de autoría
Análisis de subárboles de árboles de dependencia
Sn-gramas mixtos
Métodos de Aprendizaje Automático
SVM
PAN-CLEF 2012
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Este estudio aborda el problema de la atribución de autoría con un método novedoso para modelar el estilo de escritura utilizando el análisis de subárboles de árboles de dependencia. Este método explota la información sintáctica de las oraciones utilizando sn-gramas sintácticos mixtos (sn-gramas mixtos). El método comprende un algoritmo para generar sn-gramas mixtos integrando palabras, etiquetas POS y etiquetas de relación de dependencia. Los sn-gramas mixtos se utilizan como marcadores de estilo para alimentar métodos de aprendizaje automático como un SVM. Se realizó un análisis comparativo para evaluar el rendimiento del método propuesto de sn-gramas mixtos frente a sn-gramas homogéneos con los conjuntos de datos PAN-CLEF 2012 y CCAT50. Los experimentos con PAN 2012 mostraron el potencial de los sn-gramas mixtos para modelar un estilo de escritura al superar a los sn-gramas homogéneos. Por otro lado, los experimentos con CCAT50 mostraron que el entrenamiento con sn-gramas mixtos mejora la precisión sobre los sn-gramas homogéneos, siendo la categoría POS-Palabra la que mostró el mejor resultado. Los resultados del estudio sugieren que los sn-gramas mixtos constituyen marcadores estilísticos efectivos para construir un modelo de estilo de escritura confiable, que los algoritmos de aprendizaje automático pueden aprender.
Descripción
Este estudio aborda el problema de la atribución de autoría con un método novedoso para modelar el estilo de escritura utilizando el análisis de subárboles de árboles de dependencia. Este método explota la información sintáctica de las oraciones utilizando sn-gramas sintácticos mixtos (sn-gramas mixtos). El método comprende un algoritmo para generar sn-gramas mixtos integrando palabras, etiquetas POS y etiquetas de relación de dependencia. Los sn-gramas mixtos se utilizan como marcadores de estilo para alimentar métodos de aprendizaje automático como un SVM. Se realizó un análisis comparativo para evaluar el rendimiento del método propuesto de sn-gramas mixtos frente a sn-gramas homogéneos con los conjuntos de datos PAN-CLEF 2012 y CCAT50. Los experimentos con PAN 2012 mostraron el potencial de los sn-gramas mixtos para modelar un estilo de escritura al superar a los sn-gramas homogéneos. Por otro lado, los experimentos con CCAT50 mostraron que el entrenamiento con sn-gramas mixtos mejora la precisión sobre los sn-gramas homogéneos, siendo la categoría POS-Palabra la que mostró el mejor resultado. Los resultados del estudio sugieren que los sn-gramas mixtos constituyen marcadores estilísticos efectivos para construir un modelo de estilo de escritura confiable, que los algoritmos de aprendizaje automático pueden aprender.