Un estudio de la densidad analógica en varios corpora a varias granularidades

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un estudio de la densidad analógica en varios corpora a varias granularidades

Autores: Fam, Rashel; Lepage, Yves

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Un estudio de la densidad analógica en varios corpora a varias granularidades

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Problema teórico

Densidad analógica

Nivel de oración

Esquemas de tokenización

Modelos de sub-palabras

Relación tipo-token

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En este artículo, inspeccionamos el problema teórico de contar el número de analogías entre oraciones contenidas en un texto. Basándonos en esto, medimos la densidad analógica del texto. Nos enfocamos en la analogía a nivel de oración, basándonos en el nivel de forma en lugar de en el nivel de semántica. Los experimentos se llevan a cabo en dos corpus diferentes en seis lenguas europeas conocidas por tener varios niveles de riqueza morfológica. Los corpus se tokenizan utilizando varios esquemas de tokenización: carácter, sub-palabra y palabra. Para el esquema de tokenización de sub-palabras, empleamos dos modelos de sub-palabras populares: modelo de lenguaje unigram y codificación por pares de bytes. Los resultados muestran que el corpus con una mayor relación Tipo-Tokens tiende a tener una mayor densidad analógica. También observamos que enmascarar los tokens en función de su frecuencia ayuda a aumentar la densidad analógica. En cuanto al esquema de tokenización, los resultados muestran que la densidad analógica disminuye de carácter a palabra. Sin embargo, esto no es cierto cuando los tokens se enmascaran en función de sus frecuencias. Encontramos que tokenizar las oraciones utilizando modelos de sub-palabras y enmascarar los tokens menos frecuentes aumenta la densidad analógica.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro