Tf-tda: un esquema novedoso de ponderación de términos supervisado para el análisis de sentimientos
Autores: Alshehri, Arwa; Algarni, Abdulmohsen
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Tf-tda: un esquema novedoso de ponderación de términos supervisado para el análisis de sentimientos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Clasificación de texto
Análisis de sentimientos
Esquemas de ponderación de términos
Ponderación de términos no supervisada
Ponderación de términos supervisada
TF-TDA
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
En las tareas de clasificación de texto, como el análisis de sentimientos (SA), los esquemas de representación y ponderación de características desempeñan un papel crucial en el rendimiento de la clasificación. Los esquemas de ponderación de términos tradicionales dependen de la frecuencia del término dentro de toda la colección de documentos; por lo tanto, se les llama esquemas de ponderación de términos no supervisados (UTW). Uno de los esquemas de UTW más populares es la frecuencia del término-frecuencia inversa del documento (TF-IDF); sin embargo, esto no es suficiente para las tareas de SA. Se han desarrollado esquemas de ponderación más nuevos para aprovechar la pertenencia de los documentos en sus categorías. Estos se llaman esquemas de ponderación de términos supervisados (STW); sin embargo, la mayoría de ellos ponderan las características extraídas sin considerar las características de algunas características ruidosas y desequilibrios de datos. Por lo tanto, en este estudio, se propuso un nuevo enfoque de STW, conocido como frecuencia del término-capacidad de discriminación del término (TF-TDA). TF-TDA presenta principalmente las características extraídas con diferentes grados de discriminación al categorizarlas en varios grupos. Posteriormente, cada grupo se pondera en función de su contribución. El método propuesto se examinó en cuatro conjuntos de datos de SA utilizando modelos de naive Bayes (NB) y máquina de vectores de soporte (SVM). Los resultados experimentales demostraron la superioridad de TF-TDA sobre dos enfoques de ponderación de términos de referencia, con mejoras que van del 0,52% al 3,99% en la puntuación F1. Los resultados de las pruebas estadísticas verificaron la mejora significativa obtenida por TF-TDA en la mayoría de los casos, donde el valor de - varió de 0,0000597 a 0,0455.
Descripción
En las tareas de clasificación de texto, como el análisis de sentimientos (SA), los esquemas de representación y ponderación de características desempeñan un papel crucial en el rendimiento de la clasificación. Los esquemas de ponderación de términos tradicionales dependen de la frecuencia del término dentro de toda la colección de documentos; por lo tanto, se les llama esquemas de ponderación de términos no supervisados (UTW). Uno de los esquemas de UTW más populares es la frecuencia del término-frecuencia inversa del documento (TF-IDF); sin embargo, esto no es suficiente para las tareas de SA. Se han desarrollado esquemas de ponderación más nuevos para aprovechar la pertenencia de los documentos en sus categorías. Estos se llaman esquemas de ponderación de términos supervisados (STW); sin embargo, la mayoría de ellos ponderan las características extraídas sin considerar las características de algunas características ruidosas y desequilibrios de datos. Por lo tanto, en este estudio, se propuso un nuevo enfoque de STW, conocido como frecuencia del término-capacidad de discriminación del término (TF-TDA). TF-TDA presenta principalmente las características extraídas con diferentes grados de discriminación al categorizarlas en varios grupos. Posteriormente, cada grupo se pondera en función de su contribución. El método propuesto se examinó en cuatro conjuntos de datos de SA utilizando modelos de naive Bayes (NB) y máquina de vectores de soporte (SVM). Los resultados experimentales demostraron la superioridad de TF-TDA sobre dos enfoques de ponderación de términos de referencia, con mejoras que van del 0,52% al 3,99% en la puntuación F1. Los resultados de las pruebas estadísticas verificaron la mejora significativa obtenida por TF-TDA en la mayoría de los casos, donde el valor de - varió de 0,0000597 a 0,0455.