Clasificación de Texto Usando Medidas de Conjuntos Difusos Intuicionistas-Un Estudio de Evaluación
Autores: Sidiropoulos, George K.; Diamianos, Nikolaos; Apostolidis, Kyriakos D.; Papakostas, George A.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Clasificación de Texto Usando Medidas de Conjuntos Difusos Intuicionistas-Un Estudio de Evaluación
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Procesamiento de lenguaje natural
Categorización de texto
Teoría de conjuntos difusos
Clasificación de documentos
Medidas de similitud
Medidas de distancia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Una tarea muy importante del Procesamiento de Lenguaje Natural es la categorización de texto (o clasificación de texto), que tiene como objetivo clasificar automáticamente un documento en categorías. Este tipo de tarea incluye numerosas aplicaciones, como el análisis de sentimientos, la detección de lenguaje o intención, muy utilizadas por herramientas de monitoreo de redes sociales/marcas, servicio al cliente y la voz del cliente, entre otros. Desde la introducción de la teoría de Conjuntos Difusos, su aplicación ha sido probada en muchos campos, desde la bioinformática hasta el uso industrial y comercial, así como en casos con datos vagos, incompletos o imprecisos, destacando su importancia y utilidad en los campos. El aspecto más importante de la aplicación de la teoría de Conjuntos Difusos son las medidas empleadas para calcular cuán similares o disímiles son dos muestras en un conjunto de datos. En este estudio, evaluamos el rendimiento de 43 medidas de similitud y 19 medidas de distancia en la tarea de clasificación de documentos de texto, utilizando los conjuntos de datos de referencia de BBC News y BBC Sports, que son ampliamente utilizados. Su rendimiento se optimiza a través de técnicas de optimización de hiperparámetros y se evalúa mediante una técnica de validación cruzada de dejar uno fuera, presentando su rendimiento utilizando las métricas de precisión, exactitud, recuperación y puntuación F1.
Descripción
Una tarea muy importante del Procesamiento de Lenguaje Natural es la categorización de texto (o clasificación de texto), que tiene como objetivo clasificar automáticamente un documento en categorías. Este tipo de tarea incluye numerosas aplicaciones, como el análisis de sentimientos, la detección de lenguaje o intención, muy utilizadas por herramientas de monitoreo de redes sociales/marcas, servicio al cliente y la voz del cliente, entre otros. Desde la introducción de la teoría de Conjuntos Difusos, su aplicación ha sido probada en muchos campos, desde la bioinformática hasta el uso industrial y comercial, así como en casos con datos vagos, incompletos o imprecisos, destacando su importancia y utilidad en los campos. El aspecto más importante de la aplicación de la teoría de Conjuntos Difusos son las medidas empleadas para calcular cuán similares o disímiles son dos muestras en un conjunto de datos. En este estudio, evaluamos el rendimiento de 43 medidas de similitud y 19 medidas de distancia en la tarea de clasificación de documentos de texto, utilizando los conjuntos de datos de referencia de BBC News y BBC Sports, que son ampliamente utilizados. Su rendimiento se optimiza a través de técnicas de optimización de hiperparámetros y se evalúa mediante una técnica de validación cruzada de dejar uno fuera, presentando su rendimiento utilizando las métricas de precisión, exactitud, recuperación y puntuación F1.