Un modelo auto-supervisado para la identificación del idioma integrando conocimiento fonológico
Autores: Zhan, Qingran; Xie, Xiang; Hu, Chenguang; Cheng, Haobo
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un modelo auto-supervisado para la identificación del idioma integrando conocimiento fonológico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje auto-supervisado
Codificador Transformer
Estrategia multi-tarea
Fonema
Etiquetas fonológicas
Clasificación Temporal Conexionista
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
En este artículo, se propone un modelo preentrenado de aprendizaje auto-supervisado y se aplica con éxito en la tarea de identificación del lenguaje (LID). Se emplea un codificador Transformer y se utiliza una estrategia de múltiples tareas para entrenar el modelo auto-supervisado: la primera tarea es reconstruir los fragmentos enmascarados de los marcos de entrada y la segunda tarea es una tarea de supervisión donde se utilizan etiquetas fonémicas y fonológicas con pérdida de Clasificación Temporal Conexionalista (CTC). Al utilizar esta pérdida de aprendizaje de múltiples tareas, se espera que el modelo capture una representación del habla de alto nivel en el espacio fonológico. Además, se aplica una pérdida adaptativa para el aprendizaje de múltiples tareas para equilibrar el peso entre las diferentes tareas. Después de la etapa de preentrenamiento, el modelo auto-supervisado se utiliza para sistemas xvector. Nuestros experimentos de LID se llevan a cabo en el corpus de datos del desafío de reconocimiento de lenguaje oriental (OLR) y se seleccionan conjuntos de entrenamiento, validación y prueba. Los resultados experimentales muestran que en el conjunto de prueba, el enfoque del modelo de extracción de características puede obtener el mejor rendimiento y en el conjunto de prueba, el enfoque de ajuste fino puede alcanzar el mejor rendimiento. Además, nuestros resultados demuestran que la estrategia de entrenamiento de múltiples tareas es efectiva y que el modelo propuesto puede obtener el mejor rendimiento.
Descripción
En este artículo, se propone un modelo preentrenado de aprendizaje auto-supervisado y se aplica con éxito en la tarea de identificación del lenguaje (LID). Se emplea un codificador Transformer y se utiliza una estrategia de múltiples tareas para entrenar el modelo auto-supervisado: la primera tarea es reconstruir los fragmentos enmascarados de los marcos de entrada y la segunda tarea es una tarea de supervisión donde se utilizan etiquetas fonémicas y fonológicas con pérdida de Clasificación Temporal Conexionalista (CTC). Al utilizar esta pérdida de aprendizaje de múltiples tareas, se espera que el modelo capture una representación del habla de alto nivel en el espacio fonológico. Además, se aplica una pérdida adaptativa para el aprendizaje de múltiples tareas para equilibrar el peso entre las diferentes tareas. Después de la etapa de preentrenamiento, el modelo auto-supervisado se utiliza para sistemas xvector. Nuestros experimentos de LID se llevan a cabo en el corpus de datos del desafío de reconocimiento de lenguaje oriental (OLR) y se seleccionan conjuntos de entrenamiento, validación y prueba. Los resultados experimentales muestran que en el conjunto de prueba, el enfoque del modelo de extracción de características puede obtener el mejor rendimiento y en el conjunto de prueba, el enfoque de ajuste fino puede alcanzar el mejor rendimiento. Además, nuestros resultados demuestran que la estrategia de entrenamiento de múltiples tareas es efectiva y que el modelo propuesto puede obtener el mejor rendimiento.