Clasificación de texto corto con método de cómputo suave basado en tolerancia
Autores: Patel, Vrushang; Ramanna, Sheela; Kotecha, Ketan; Walambe, Rahee
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Clasificación de texto corto con método de cómputo suave basado en tolerancia
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Clasificación de texto
Clasificación de sentimientos
Categorización de noticias
Técnica de computación suave
Algoritmo TSC
Conjuntos de tolerancia cercanos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
La clasificación de texto tiene como objetivo asignar etiquetas a unidades textuales como documentos, oraciones y párrafos. Algunas aplicaciones de la clasificación de texto incluyen la clasificación de sentimientos y la categorización de noticias. En este artículo, presentamos un algoritmo basado en técnicas de computación suave (TSC) para clasificar las polaridades de sentimiento de tweets, así como las categorías de noticias a partir de texto. El algoritmo TSC es un método de aprendizaje supervisado basado en conjuntos de tolerancia cercanos. La teoría de conjuntos cercanos es una metodología de computación suave más reciente inspirada en conjuntos aproximados donde, en lugar de los operadores de aproximación de conjuntos utilizados por los conjuntos aproximados para inducir clases de tolerancia, las clases de tolerancia se inducen directamente a partir de los vectores de características utilizando un parámetro de nivel de tolerancia y una función de distancia. El algoritmo TSC propuesto aprovecha los avances recientes en la extracción eficiente de características y generación de vectores a partir de codificadores transformadores bidireccionales pre-entrenados para crear clases de tolerancia. Se realizaron experimentos en diez conjuntos de datos bien investigados que incluyen tanto texto corto como largo. Se utilizaron tanto vectores pre-entrenados SBERT como TF-IDF en el análisis experimental. Los resultados de los vectores basados en transformadores demuestran que TSC supera a cinco algoritmos de aprendizaje automático conocidos en cuatro conjuntos de datos, y es comparable con todos los demás conjuntos de datos basados en los puntajes de F1 ponderados, Precisión y Recall. La puntuación más alta de AUC-ROC (Área bajo la Curva de Características Operativas del Receptor) se obtuvo en dos conjuntos de datos y fue comparable en otros seis conjuntos de datos. La puntuación más alta de ROC-PRC (Área bajo la Curva de Precisión-Recall) se obtuvo en un conjunto de datos y fue comparable en otros cuatro conjuntos de datos. Además, se observaron diferencias significativas en la mayoría de las comparaciones al examinar la diferencia estadística entre el puntaje de F1 ponderado de TSC y otros clasificadores utilizando una prueba de rangos con signo de Wilcoxon.
Descripción
La clasificación de texto tiene como objetivo asignar etiquetas a unidades textuales como documentos, oraciones y párrafos. Algunas aplicaciones de la clasificación de texto incluyen la clasificación de sentimientos y la categorización de noticias. En este artículo, presentamos un algoritmo basado en técnicas de computación suave (TSC) para clasificar las polaridades de sentimiento de tweets, así como las categorías de noticias a partir de texto. El algoritmo TSC es un método de aprendizaje supervisado basado en conjuntos de tolerancia cercanos. La teoría de conjuntos cercanos es una metodología de computación suave más reciente inspirada en conjuntos aproximados donde, en lugar de los operadores de aproximación de conjuntos utilizados por los conjuntos aproximados para inducir clases de tolerancia, las clases de tolerancia se inducen directamente a partir de los vectores de características utilizando un parámetro de nivel de tolerancia y una función de distancia. El algoritmo TSC propuesto aprovecha los avances recientes en la extracción eficiente de características y generación de vectores a partir de codificadores transformadores bidireccionales pre-entrenados para crear clases de tolerancia. Se realizaron experimentos en diez conjuntos de datos bien investigados que incluyen tanto texto corto como largo. Se utilizaron tanto vectores pre-entrenados SBERT como TF-IDF en el análisis experimental. Los resultados de los vectores basados en transformadores demuestran que TSC supera a cinco algoritmos de aprendizaje automático conocidos en cuatro conjuntos de datos, y es comparable con todos los demás conjuntos de datos basados en los puntajes de F1 ponderados, Precisión y Recall. La puntuación más alta de AUC-ROC (Área bajo la Curva de Características Operativas del Receptor) se obtuvo en dos conjuntos de datos y fue comparable en otros seis conjuntos de datos. La puntuación más alta de ROC-PRC (Área bajo la Curva de Precisión-Recall) se obtuvo en un conjunto de datos y fue comparable en otros cuatro conjuntos de datos. Además, se observaron diferencias significativas en la mayoría de las comparaciones al examinar la diferencia estadística entre el puntaje de F1 ponderado de TSC y otros clasificadores utilizando una prueba de rangos con signo de Wilcoxon.