logo móvil
Contáctanos

Clasificación de texto corto con método de cómputo suave basado en tolerancia

Autores: Patel, Vrushang; Ramanna, Sheela; Kotecha, Ketan; Walambe, Rahee

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Clasificación de texto corto con método de cómputo suave basado en tolerancia


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Clasificación de texto
Clasificación de sentimientos
Categorización de noticias
Técnica de computación suave
Algoritmo TSC
Conjuntos de tolerancia cercanos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
La clasificación de texto tiene como objetivo asignar etiquetas a unidades textuales como documentos, oraciones y párrafos. Algunas aplicaciones de la clasificación de texto incluyen la clasificación de sentimientos y la categorización de noticias. En este artículo, presentamos un algoritmo basado en técnicas de computación suave (TSC) para clasificar las polaridades de sentimiento de tweets, así como las categorías de noticias a partir de texto. El algoritmo TSC es un método de aprendizaje supervisado basado en conjuntos de tolerancia cercanos. La teoría de conjuntos cercanos es una metodología de computación suave más reciente inspirada en conjuntos aproximados donde, en lugar de los operadores de aproximación de conjuntos utilizados por los conjuntos aproximados para inducir clases de tolerancia, las clases de tolerancia se inducen directamente a partir de los vectores de características utilizando un parámetro de nivel de tolerancia y una función de distancia. El algoritmo TSC propuesto aprovecha los avances recientes en la extracción eficiente de características y generación de vectores a partir de codificadores transformadores bidireccionales pre-entrenados para crear clases de tolerancia. Se realizaron experimentos en diez conjuntos de datos bien investigados que incluyen tanto texto corto como largo. Se utilizaron tanto vectores pre-entrenados SBERT como TF-IDF en el análisis experimental. Los resultados de los vectores basados en transformadores demuestran que TSC supera a cinco algoritmos de aprendizaje automático conocidos en cuatro conjuntos de datos, y es comparable con todos los demás conjuntos de datos basados en los puntajes de F1 ponderados, Precisión y Recall. La puntuación más alta de AUC-ROC (Área bajo la Curva de Características Operativas del Receptor) se obtuvo en dos conjuntos de datos y fue comparable en otros seis conjuntos de datos. La puntuación más alta de ROC-PRC (Área bajo la Curva de Precisión-Recall) se obtuvo en un conjunto de datos y fue comparable en otros cuatro conjuntos de datos. Además, se observaron diferencias significativas en la mayoría de las comparaciones al examinar la diferencia estadística entre el puntaje de F1 ponderado de TSC y otros clasificadores utilizando una prueba de rangos con signo de Wilcoxon.

Otros recursos que podrían interesarte

Temas Virtualpro