Cuantificando la disimilitud de los textos
Autores: Shade, Benjamin; Altmann, Eduardo G.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Cuantificando la disimilitud de los textos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Cuantificación
Disimilitud
Textos
Procesamiento de lenguaje natural
Medidas
Agrupamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Cuantificar la disimilitud de dos textos es un aspecto importante de varias tareas de procesamiento de lenguaje natural, incluyendo la recuperación de información semántica, la clasificación de temas y el agrupamiento de documentos. En este artículo, comparamos las propiedades y el rendimiento de diferentes medidas de disimilitud D utilizando tres representaciones diferentes de textos: vocabularios, distribuciones de frecuencia de palabras y embeddings vectoriales, y tres tareas simples: agrupar textos por autor, tema y período de tiempo. Utilizando la base de datos del Proyecto Gutenberg, encontramos que la divergencia de Jensen-Shannon generalizada aplicada a las frecuencias de palabras tuvo un rendimiento sólido en todas las tareas, que las D basadas en representaciones de embeddings vectoriales llevaron a un mejor rendimiento para textos más pequeños, y que la elección óptima del enfoque dependía en última instancia de la tarea. También investigamos, tanto analíticamente como numéricamente, el comportamiento de las diferentes D cuando los dos textos variaban en longitud por un factor h. Demostramos que el estimador (natural) de la distancia de Jaccard entre vocabularios era inconsistente y calculamos explícitamente la dependencia en h del sesgo del estimador de la divergencia de Jensen-Shannon generalizada aplicada a las frecuencias de palabras. También encontramos numéricamente que la divergencia de Jensen-Shannon y los enfoques basados en embeddings eran robustos a cambios en h, mientras que la distancia de Jaccard no lo era.
Descripción
Cuantificar la disimilitud de dos textos es un aspecto importante de varias tareas de procesamiento de lenguaje natural, incluyendo la recuperación de información semántica, la clasificación de temas y el agrupamiento de documentos. En este artículo, comparamos las propiedades y el rendimiento de diferentes medidas de disimilitud D utilizando tres representaciones diferentes de textos: vocabularios, distribuciones de frecuencia de palabras y embeddings vectoriales, y tres tareas simples: agrupar textos por autor, tema y período de tiempo. Utilizando la base de datos del Proyecto Gutenberg, encontramos que la divergencia de Jensen-Shannon generalizada aplicada a las frecuencias de palabras tuvo un rendimiento sólido en todas las tareas, que las D basadas en representaciones de embeddings vectoriales llevaron a un mejor rendimiento para textos más pequeños, y que la elección óptima del enfoque dependía en última instancia de la tarea. También investigamos, tanto analíticamente como numéricamente, el comportamiento de las diferentes D cuando los dos textos variaban en longitud por un factor h. Demostramos que el estimador (natural) de la distancia de Jaccard entre vocabularios era inconsistente y calculamos explícitamente la dependencia en h del sesgo del estimador de la divergencia de Jensen-Shannon generalizada aplicada a las frecuencias de palabras. También encontramos numéricamente que la divergencia de Jensen-Shannon y los enfoques basados en embeddings eran robustos a cambios en h, mientras que la distancia de Jaccard no lo era.