logo móvil
Contáctanos

Cuantificando la disimilitud de los textos

Autores: Shade, Benjamin; Altmann, Eduardo G.

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Cuantificando la disimilitud de los textos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Cuantificación
Disimilitud
Textos
Procesamiento de lenguaje natural
Medidas
Agrupamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Cuantificar la disimilitud de dos textos es un aspecto importante de varias tareas de procesamiento de lenguaje natural, incluyendo la recuperación de información semántica, la clasificación de temas y el agrupamiento de documentos. En este artículo, comparamos las propiedades y el rendimiento de diferentes medidas de disimilitud D utilizando tres representaciones diferentes de textos: vocabularios, distribuciones de frecuencia de palabras y embeddings vectoriales, y tres tareas simples: agrupar textos por autor, tema y período de tiempo. Utilizando la base de datos del Proyecto Gutenberg, encontramos que la divergencia de Jensen-Shannon generalizada aplicada a las frecuencias de palabras tuvo un rendimiento sólido en todas las tareas, que las D basadas en representaciones de embeddings vectoriales llevaron a un mejor rendimiento para textos más pequeños, y que la elección óptima del enfoque dependía en última instancia de la tarea. También investigamos, tanto analíticamente como numéricamente, el comportamiento de las diferentes D cuando los dos textos variaban en longitud por un factor h. Demostramos que el estimador (natural) de la distancia de Jaccard entre vocabularios era inconsistente y calculamos explícitamente la dependencia en h del sesgo del estimador de la divergencia de Jensen-Shannon generalizada aplicada a las frecuencias de palabras. También encontramos numéricamente que la divergencia de Jensen-Shannon y los enfoques basados en embeddings eran robustos a cambios en h, mientras que la distancia de Jaccard no lo era.

Otros recursos que podrían interesarte

Temas Virtualpro