Clasificación de texto corto con método de cómputo suave basado en tolerancia

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Clasificación de texto corto con método de cómputo suave basado en tolerancia

Autores: Patel, Vrushang; Ramanna, Sheela; Kotecha, Ketan; Walambe, Rahee

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Clasificación de texto corto con método de cómputo suave basado en tolerancia

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Clasificación de texto

Clasificación de sentimientos

Categorización de noticias

Técnica de computación suave

Algoritmo TSC

Conjuntos de tolerancia cercanos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

La clasificación de texto tiene como objetivo asignar etiquetas a unidades textuales como documentos, oraciones y párrafos. Algunas aplicaciones de la clasificación de texto incluyen la clasificación de sentimientos y la categorización de noticias. En este artículo, presentamos un algoritmo basado en técnicas de computación suave (TSC) para clasificar las polaridades de sentimiento de tweets, así como las categorías de noticias a partir de texto. El algoritmo TSC es un método de aprendizaje supervisado basado en conjuntos de tolerancia cercanos. La teoría de conjuntos cercanos es una metodología de computación suave más reciente inspirada en conjuntos aproximados donde, en lugar de los operadores de aproximación de conjuntos utilizados por los conjuntos aproximados para inducir clases de tolerancia, las clases de tolerancia se inducen directamente a partir de los vectores de características utilizando un parámetro de nivel de tolerancia y una función de distancia. El algoritmo TSC propuesto aprovecha los avances recientes en la extracción eficiente de características y generación de vectores a partir de codificadores transformadores bidireccionales pre-entrenados para crear clases de tolerancia. Se realizaron experimentos en diez conjuntos de datos bien investigados que incluyen tanto texto corto como largo. Se utilizaron tanto vectores pre-entrenados SBERT como TF-IDF en el análisis experimental. Los resultados de los vectores basados en transformadores demuestran que TSC supera a cinco algoritmos de aprendizaje automático conocidos en cuatro conjuntos de datos, y es comparable con todos los demás conjuntos de datos basados en los puntajes de F1 ponderados, Precisión y Recall. La puntuación más alta de AUC-ROC (Área bajo la Curva de Características Operativas del Receptor) se obtuvo en dos conjuntos de datos y fue comparable en otros seis conjuntos de datos. La puntuación más alta de ROC-PRC (Área bajo la Curva de Precisión-Recall) se obtuvo en un conjunto de datos y fue comparable en otros cuatro conjuntos de datos. Además, se observaron diferencias significativas en la mayoría de las comparaciones al examinar la diferencia estadística entre el puntaje de F1 ponderado de TSC y otros clasificadores utilizando una prueba de rangos con signo de Wilcoxon.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro