Un estudio multilingüe y multidominio sobre el reconocimiento de actos de diálogo utilizando tokenización a nivel de caracteres
Autores: Ribeiro, Eugénio; Ribeiro, Ricardo; de Matos, David Martins
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Un estudio multilingüe y multidominio sobre el reconocimiento de actos de diálogo utilizando tokenización a nivel de caracteres
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Reconocimiento de actos de diálogo
Tokenización a nivel de caracteres
Aspectos morfológicos
Puntuación
Capitalización
Múltiples dominios
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento automático de actos de diálogo es un paso importante para los sistemas de diálogo, ya que revela la intención detrás de las palabras pronunciadas por sus interlocutores. Aunque la mayoría de los enfoques sobre la tarea utilizan la tokenización a nivel de palabra, hay información a nivel de sub-palabra que está relacionada con la función de las palabras y, en consecuencia, su intención. Así, en este estudio, exploramos el uso de la tokenización a nivel de carácter para capturar esa información. Exploramos el uso de múltiples ventanas de caracteres de diferentes tamaños para capturar aspectos morfológicos, como afijos y lemas, así como información entre palabras. Además, evaluamos la importancia de la puntuación y la capitalización para la tarea. Para ampliar las conclusiones de nuestro estudio, realizamos experimentos en diálogos en tres idiomas: inglés, español y alemán, que tienen diferentes características morfológicas. Además, los diálogos cubren múltiples dominios y están anotados con etiquetas de actos de diálogo tanto dependientes del dominio como independientes del dominio. Los resultados obtenidos no solo muestran que el enfoque a nivel de carácter conduce a un rendimiento similar o mejor que los enfoques a nivel de palabra de última generación en la tarea, sino también que ambos enfoques son capaces de capturar información complementaria. Así, los mejores resultados se logran combinando la tokenización en ambos niveles.
Descripción
El reconocimiento automático de actos de diálogo es un paso importante para los sistemas de diálogo, ya que revela la intención detrás de las palabras pronunciadas por sus interlocutores. Aunque la mayoría de los enfoques sobre la tarea utilizan la tokenización a nivel de palabra, hay información a nivel de sub-palabra que está relacionada con la función de las palabras y, en consecuencia, su intención. Así, en este estudio, exploramos el uso de la tokenización a nivel de carácter para capturar esa información. Exploramos el uso de múltiples ventanas de caracteres de diferentes tamaños para capturar aspectos morfológicos, como afijos y lemas, así como información entre palabras. Además, evaluamos la importancia de la puntuación y la capitalización para la tarea. Para ampliar las conclusiones de nuestro estudio, realizamos experimentos en diálogos en tres idiomas: inglés, español y alemán, que tienen diferentes características morfológicas. Además, los diálogos cubren múltiples dominios y están anotados con etiquetas de actos de diálogo tanto dependientes del dominio como independientes del dominio. Los resultados obtenidos no solo muestran que el enfoque a nivel de carácter conduce a un rendimiento similar o mejor que los enfoques a nivel de palabra de última generación en la tarea, sino también que ambos enfoques son capaces de capturar información complementaria. Así, los mejores resultados se logran combinando la tokenización en ambos niveles.