logo móvil
Contáctanos

Un estudio multilingüe y multidominio sobre el reconocimiento de actos de diálogo utilizando tokenización a nivel de caracteres

Autores: Ribeiro, Eugénio; Ribeiro, Ricardo; de Matos, David Martins

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Un estudio multilingüe y multidominio sobre el reconocimiento de actos de diálogo utilizando tokenización a nivel de caracteres


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Reconocimiento de actos de diálogo
Tokenización a nivel de caracteres
Aspectos morfológicos
Puntuación
Capitalización
Múltiples dominios

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El reconocimiento automático de actos de diálogo es un paso importante para los sistemas de diálogo, ya que revela la intención detrás de las palabras pronunciadas por sus interlocutores. Aunque la mayoría de los enfoques sobre la tarea utilizan la tokenización a nivel de palabra, hay información a nivel de sub-palabra que está relacionada con la función de las palabras y, en consecuencia, su intención. Así, en este estudio, exploramos el uso de la tokenización a nivel de carácter para capturar esa información. Exploramos el uso de múltiples ventanas de caracteres de diferentes tamaños para capturar aspectos morfológicos, como afijos y lemas, así como información entre palabras. Además, evaluamos la importancia de la puntuación y la capitalización para la tarea. Para ampliar las conclusiones de nuestro estudio, realizamos experimentos en diálogos en tres idiomas: inglés, español y alemán, que tienen diferentes características morfológicas. Además, los diálogos cubren múltiples dominios y están anotados con etiquetas de actos de diálogo tanto dependientes del dominio como independientes del dominio. Los resultados obtenidos no solo muestran que el enfoque a nivel de carácter conduce a un rendimiento similar o mejor que los enfoques a nivel de palabra de última generación en la tarea, sino también que ambos enfoques son capaces de capturar información complementaria. Así, los mejores resultados se logran combinando la tokenización en ambos niveles.

Otros recursos que podrían interesarte

Temas Virtualpro