Un kit de herramientas basado en compresión para modelar y procesar texto en lenguaje natural
Autores: Teahan, William John
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Un kit de herramientas basado en compresión para modelar y procesar texto en lenguaje natural
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Compresión novel
Texto en lenguaje natural
Perspectiva de codificación
Modelo de canal sin ruido
Comunicación sin pérdida
Verificación y decodificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Se describe un nuevo conjunto de herramientas basado en compresión para modelar y procesar texto en lenguaje natural. El diseño del conjunto de herramientas adopta una perspectiva de codificación: las aplicaciones se consideran problemas en la búsqueda de la mejor codificación de diferentes transformaciones del texto fuente al texto objetivo. Este documento describe una arquitectura de "modelo de canal sin ruido" en dos fases que sustenta el conjunto de herramientas, que modela el procesamiento de texto como una comunicación sin pérdidas a través de un canal libre de ruido. La transformación y codificación que se realiza en la primera fase debe ser tanto sin pérdidas como reversible. El papel de la segunda fase de verificación y decodificación es verificar la corrección de la comunicación del texto objetivo que produce la aplicación. Este documento argumenta que este enfoque de codificación tiene varias ventajas sobre el enfoque de decodificación del modelo estándar de canal ruidoso. Se explican los conceptos abstraídos por el diseño del conjunto de herramientas junto con detalles de las llamadas a la biblioteca. También se describe el pseudo-código para varios algoritmos para las aplicaciones que implementa el conjunto de herramientas, incluyendo codificación, decodificación, clasificación, entrenamiento (construcción de modelos), alineación de oraciones en paralelo, segmentación de palabras y segmentación de lenguajes. También se discuten algunos resultados experimentales, detalles de implementación, uso de memoria y velocidades de ejecución para estas aplicaciones.
Descripción
Se describe un nuevo conjunto de herramientas basado en compresión para modelar y procesar texto en lenguaje natural. El diseño del conjunto de herramientas adopta una perspectiva de codificación: las aplicaciones se consideran problemas en la búsqueda de la mejor codificación de diferentes transformaciones del texto fuente al texto objetivo. Este documento describe una arquitectura de "modelo de canal sin ruido" en dos fases que sustenta el conjunto de herramientas, que modela el procesamiento de texto como una comunicación sin pérdidas a través de un canal libre de ruido. La transformación y codificación que se realiza en la primera fase debe ser tanto sin pérdidas como reversible. El papel de la segunda fase de verificación y decodificación es verificar la corrección de la comunicación del texto objetivo que produce la aplicación. Este documento argumenta que este enfoque de codificación tiene varias ventajas sobre el enfoque de decodificación del modelo estándar de canal ruidoso. Se explican los conceptos abstraídos por el diseño del conjunto de herramientas junto con detalles de las llamadas a la biblioteca. También se describe el pseudo-código para varios algoritmos para las aplicaciones que implementa el conjunto de herramientas, incluyendo codificación, decodificación, clasificación, entrenamiento (construcción de modelos), alineación de oraciones en paralelo, segmentación de palabras y segmentación de lenguajes. También se discuten algunos resultados experimentales, detalles de implementación, uso de memoria y velocidades de ejecución para estas aplicaciones.