Inferencia de Subunidades y Desarrollo de Léxico Basado en Comparación Par a Par de Utterances y Signos
Autores: Tornay, Sandrine; Magimai.-Doss, Mathew
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Inferencia de Subunidades y Desarrollo de Léxico Basado en Comparación Par a Par de Utterances y Signos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Información
Idioma
Tecnologías
Unidades de subpalabras
Habla
Modelado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los lenguajes de comunicación transmiten información a través del uso de un conjunto de símbolos o unidades. Típicamente, esta unidad es la palabra. Al desarrollar tecnologías del lenguaje, dado que las palabras en un idioma no tienen la misma probabilidad previa, puede que no haya suficientes datos de entrenamiento para cada palabra que modelar. Además, los datos de entrenamiento pueden no cubrir todas las palabras posibles en el idioma. Debido a estos problemas de escasez de datos y cobertura de unidades de palabras, las tecnologías del lenguaje emplean la modelización de unidades subpalabra o subunidades, que se basan en el conocimiento lingüístico previo. Por ejemplo, el desarrollo de tecnologías de habla, como los sistemas de reconocimiento automático de voz, presume que existe un diccionario fonético o al menos un sistema de escritura para el idioma objetivo. Tal conocimiento no está disponible para todos los idiomas del mundo. En esa dirección, este artículo desarrolla una metodología abstracta basada en modelos ocultos de Markov para extraer unidades subpalabra dado solo una comparación par a par entre enunciados (o realizaciones de palabras en el modo de comunicación), es decir, si dos enunciados corresponden a la misma palabra o no. Validamos la metodología propuesta a través de investigaciones sobre el lenguaje hablado y el lenguaje de señas. En el caso del lenguaje hablado, demostramos que la metodología propuesta puede llevar hasta el descubrimiento de un conjunto de fonemas y el desarrollo de un diccionario fonético. En el caso del lenguaje de señas, demostramos cómo la información del movimiento de las manos puede ser modelada de manera efectiva para el procesamiento del lenguaje de señas y sintetizada de nuevo para obtener información sobre las subunidades derivadas.
Descripción
Los lenguajes de comunicación transmiten información a través del uso de un conjunto de símbolos o unidades. Típicamente, esta unidad es la palabra. Al desarrollar tecnologías del lenguaje, dado que las palabras en un idioma no tienen la misma probabilidad previa, puede que no haya suficientes datos de entrenamiento para cada palabra que modelar. Además, los datos de entrenamiento pueden no cubrir todas las palabras posibles en el idioma. Debido a estos problemas de escasez de datos y cobertura de unidades de palabras, las tecnologías del lenguaje emplean la modelización de unidades subpalabra o subunidades, que se basan en el conocimiento lingüístico previo. Por ejemplo, el desarrollo de tecnologías de habla, como los sistemas de reconocimiento automático de voz, presume que existe un diccionario fonético o al menos un sistema de escritura para el idioma objetivo. Tal conocimiento no está disponible para todos los idiomas del mundo. En esa dirección, este artículo desarrolla una metodología abstracta basada en modelos ocultos de Markov para extraer unidades subpalabra dado solo una comparación par a par entre enunciados (o realizaciones de palabras en el modo de comunicación), es decir, si dos enunciados corresponden a la misma palabra o no. Validamos la metodología propuesta a través de investigaciones sobre el lenguaje hablado y el lenguaje de señas. En el caso del lenguaje hablado, demostramos que la metodología propuesta puede llevar hasta el descubrimiento de un conjunto de fonemas y el desarrollo de un diccionario fonético. En el caso del lenguaje de señas, demostramos cómo la información del movimiento de las manos puede ser modelada de manera efectiva para el procesamiento del lenguaje de señas y sintetizada de nuevo para obtener información sobre las subunidades derivadas.