Cuantificando la disimilitud de los textos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Cuantificando la disimilitud de los textos

Autores: Shade, Benjamin; Altmann, Eduardo G.

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Cuantificando la disimilitud de los textos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Cuantificación

Disimilitud

Textos

Procesamiento de lenguaje natural

Medidas

Agrupamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Cuantificar la disimilitud de dos textos es un aspecto importante de varias tareas de procesamiento de lenguaje natural, incluyendo la recuperación de información semántica, la clasificación de temas y el agrupamiento de documentos. En este artículo, comparamos las propiedades y el rendimiento de diferentes medidas de disimilitud D utilizando tres representaciones diferentes de textos: vocabularios, distribuciones de frecuencia de palabras y embeddings vectoriales, y tres tareas simples: agrupar textos por autor, tema y período de tiempo. Utilizando la base de datos del Proyecto Gutenberg, encontramos que la divergencia de Jensen-Shannon generalizada aplicada a las frecuencias de palabras tuvo un rendimiento sólido en todas las tareas, que las D basadas en representaciones de embeddings vectoriales llevaron a un mejor rendimiento para textos más pequeños, y que la elección óptima del enfoque dependía en última instancia de la tarea. También investigamos, tanto analíticamente como numéricamente, el comportamiento de las diferentes D cuando los dos textos variaban en longitud por un factor h. Demostramos que el estimador (natural) de la distancia de Jaccard entre vocabularios era inconsistente y calculamos explícitamente la dependencia en h del sesgo del estimador de la divergencia de Jensen-Shannon generalizada aplicada a las frecuencias de palabras. También encontramos numéricamente que la divergencia de Jensen-Shannon y los enfoques basados en embeddings eran robustos a cambios en h, mientras que la distancia de Jaccard no lo era.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro