logo móvil
Contáctanos

Mkd: mezcla basada en destilación de conocimientos para el reconocimiento de voz de extremo a extremo en mandarín

Autores: Wu, Xing; Jin, Yifan; Wang, Jianjia; Qian, Quan; Guo, Yike

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Mkd: mezcla basada en destilación de conocimientos para el reconocimiento de voz de extremo a extremo en mandarín


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Modelo de reconocimiento automático del habla a gran escala
Destilación de conocimiento
Destilación de Conocimiento basada en Mixup (MKD)
Eficiencia de datos
Compresión de modelo.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
Un modelo de reconocimiento automático del habla a gran escala ha logrado un rendimiento impresionante. Sin embargo, se requieren enormes recursos computacionales y una gran cantidad de datos para entrenar un modelo ASR. La destilación de conocimientos es un método de compresión de modelos prevalente que transfiere el conocimiento de un modelo grande a un modelo pequeño. Para mejorar la eficiencia de la destilación de conocimientos para el reconocimiento del habla de extremo a extremo, especialmente en un entorno de recursos limitados, se propone un método de Destilación de Conocimientos basado en Mixup (MKD) que combina Mixup, un método de aumento de datos agnóstico de datos, con la destilación de conocimientos a nivel de softmax. Se presenta una mezcla a nivel de pérdida para abordar el problema causado por la no linealidad de la etiqueta en la divergencia KL al adoptar Mixup en el marco profesor-alumno. Se muestra matemáticamente que optimizar la mezcla de la función de pérdida es equivalente a optimizar un límite superior de la pérdida original de destilación de conocimientos. El MKD propuesto aprovecha Mixup y aporta robustez al modelo incluso con una pequeña cantidad de datos de entrenamiento. Los experimentos en Aishell-1 muestran que MKD obtiene una mejora relativa del 15,6% y 3,3% en dos modelos de estudiantes con diferentes escalas de parámetros en comparación con los métodos existentes. Los experimentos sobre eficiencia de datos demuestran que MKD logra resultados similares con solo la mitad del conjunto de datos original.

Otros recursos que podrían interesarte

Temas Virtualpro