CoSpa: Un enfoque de co-entrenamiento para la identificación de reseñas de spam con máquinas de soporte vectorial
Autores: Zhang, Wen; Bu, Chaoqi; Yoshida, Taketoshi; Zhang, Siguang
Idioma: Inglés
Editor: MDPI
Año: 2016
Acceso abierto
Artículo científico
2016
CoSpa: Un enfoque de co-entrenamiento para la identificación de reseñas de spam con máquinas de soporte vectorial
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Spam
Reseñas
CoSpa
Identificación
SVM
Estrategias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las reseñas de spam están apareciendo cada vez más en Internet para promover ventas o difamar a competidores al engañar a los consumidores con opiniones engañosas. Este documento propone un enfoque de co-entrenamiento llamado CoSpa (Co-entrenamiento para la identificación de reseñas de spam) para identificar reseñas de spam desde dos perspectivas: una son los términos léxicos derivados del contenido textual de las reseñas y la otra son las reglas de PCFG (Gramáticas Libres de Contexto Probabilísticas) derivadas de un análisis sintáctico profundo de las reseñas. Usando SVM (Máquina de Vectores de Soporte) como clasificador base, desarrollamos dos estrategias, CoSpa-C y CoSpa-U, integradas dentro del enfoque CoSpa. La estrategia CoSpa-C selecciona reseñas no etiquetadas clasificadas con la mayor confianza para aumentar el conjunto de datos de entrenamiento y volver a entrenar el clasificador. La estrategia CoSpa-U selecciona aleatoriamente reseñas no etiquetadas con una distribución uniforme de confianza. Los experimentos en el conjunto de datos de spam y el conjunto de datos de engaño demuestran que ambos algoritmos CoSpa propuestos superan al SVM tradicional con términos léxicos y reglas de PCFG en la identificación de reseñas de spam. Además, la estrategia CoSpa-U supera a la estrategia CoSpa-C cuando usamos el valor absoluto de la función de decisión de SVM como la confianza.
Descripción
Las reseñas de spam están apareciendo cada vez más en Internet para promover ventas o difamar a competidores al engañar a los consumidores con opiniones engañosas. Este documento propone un enfoque de co-entrenamiento llamado CoSpa (Co-entrenamiento para la identificación de reseñas de spam) para identificar reseñas de spam desde dos perspectivas: una son los términos léxicos derivados del contenido textual de las reseñas y la otra son las reglas de PCFG (Gramáticas Libres de Contexto Probabilísticas) derivadas de un análisis sintáctico profundo de las reseñas. Usando SVM (Máquina de Vectores de Soporte) como clasificador base, desarrollamos dos estrategias, CoSpa-C y CoSpa-U, integradas dentro del enfoque CoSpa. La estrategia CoSpa-C selecciona reseñas no etiquetadas clasificadas con la mayor confianza para aumentar el conjunto de datos de entrenamiento y volver a entrenar el clasificador. La estrategia CoSpa-U selecciona aleatoriamente reseñas no etiquetadas con una distribución uniforme de confianza. Los experimentos en el conjunto de datos de spam y el conjunto de datos de engaño demuestran que ambos algoritmos CoSpa propuestos superan al SVM tradicional con términos léxicos y reglas de PCFG en la identificación de reseñas de spam. Además, la estrategia CoSpa-U supera a la estrategia CoSpa-C cuando usamos el valor absoluto de la función de decisión de SVM como la confianza.