logo móvil
Contáctanos

Un estudio de la densidad analógica en varios corpora a varias granularidades

Autores: Fam, Rashel; Lepage, Yves

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Un estudio de la densidad analógica en varios corpora a varias granularidades


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Problema teórico
Densidad analógica
Nivel de oración
Esquemas de tokenización
Modelos de sub-palabras
Relación tipo-token

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En este artículo, inspeccionamos el problema teórico de contar el número de analogías entre oraciones contenidas en un texto. Basándonos en esto, medimos la densidad analógica del texto. Nos enfocamos en la analogía a nivel de oración, basándonos en el nivel de forma en lugar de en el nivel de semántica. Los experimentos se llevan a cabo en dos corpus diferentes en seis lenguas europeas conocidas por tener varios niveles de riqueza morfológica. Los corpus se tokenizan utilizando varios esquemas de tokenización: carácter, sub-palabra y palabra. Para el esquema de tokenización de sub-palabras, empleamos dos modelos de sub-palabras populares: modelo de lenguaje unigram y codificación por pares de bytes. Los resultados muestran que el corpus con una mayor relación Tipo-Tokens tiende a tener una mayor densidad analógica. También observamos que enmascarar los tokens en función de su frecuencia ayuda a aumentar la densidad analógica. En cuanto al esquema de tokenización, los resultados muestran que la densidad analógica disminuye de carácter a palabra. Sin embargo, esto no es cierto cuando los tokens se enmascaran en función de sus frecuencias. Encontramos que tokenizar las oraciones utilizando modelos de sub-palabras y enmascarar los tokens menos frecuentes aumenta la densidad analógica.

Otros recursos que podrían interesarte

Temas Virtualpro