logo móvil
Contáctanos

Un kit de herramientas basado en compresión para modelar y procesar texto en lenguaje natural

Autores: Teahan, William John

Idioma: Inglés

Editor: MDPI

Año: 2018

Descargar PDF

Acceso abierto

Artículo científico
2018

Un kit de herramientas basado en compresión para modelar y procesar texto en lenguaje natural


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Compresión novel
Texto en lenguaje natural
Perspectiva de codificación
Modelo de canal sin ruido
Comunicación sin pérdida
Verificación y decodificación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Se describe un nuevo conjunto de herramientas basado en compresión para modelar y procesar texto en lenguaje natural. El diseño del conjunto de herramientas adopta una perspectiva de codificación: las aplicaciones se consideran problemas en la búsqueda de la mejor codificación de diferentes transformaciones del texto fuente al texto objetivo. Este documento describe una arquitectura de "modelo de canal sin ruido" en dos fases que sustenta el conjunto de herramientas, que modela el procesamiento de texto como una comunicación sin pérdidas a través de un canal libre de ruido. La transformación y codificación que se realiza en la primera fase debe ser tanto sin pérdidas como reversible. El papel de la segunda fase de verificación y decodificación es verificar la corrección de la comunicación del texto objetivo que produce la aplicación. Este documento argumenta que este enfoque de codificación tiene varias ventajas sobre el enfoque de decodificación del modelo estándar de canal ruidoso. Se explican los conceptos abstraídos por el diseño del conjunto de herramientas junto con detalles de las llamadas a la biblioteca. También se describe el pseudo-código para varios algoritmos para las aplicaciones que implementa el conjunto de herramientas, incluyendo codificación, decodificación, clasificación, entrenamiento (construcción de modelos), alineación de oraciones en paralelo, segmentación de palabras y segmentación de lenguajes. También se discuten algunos resultados experimentales, detalles de implementación, uso de memoria y velocidades de ejecución para estas aplicaciones.

Otros recursos que podrían interesarte

Temas Virtualpro