Mkd: mezcla basada en destilación de conocimientos para el reconocimiento de voz de extremo a extremo en mandarín

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mkd: mezcla basada en destilación de conocimientos para el reconocimiento de voz de extremo a extremo en mandarín

Autores: Wu, Xing; Jin, Yifan; Wang, Jianjia; Qian, Quan; Guo, Yike

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Mkd: mezcla basada en destilación de conocimientos para el reconocimiento de voz de extremo a extremo en mandarín

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Modelo de reconocimiento automático del habla a gran escala

Destilación de conocimiento

Destilación de Conocimiento basada en Mixup (MKD)

Eficiencia de datos

Compresión de modelo.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

Un modelo de reconocimiento automático del habla a gran escala ha logrado un rendimiento impresionante. Sin embargo, se requieren enormes recursos computacionales y una gran cantidad de datos para entrenar un modelo ASR. La destilación de conocimientos es un método de compresión de modelos prevalente que transfiere el conocimiento de un modelo grande a un modelo pequeño. Para mejorar la eficiencia de la destilación de conocimientos para el reconocimiento del habla de extremo a extremo, especialmente en un entorno de recursos limitados, se propone un método de Destilación de Conocimientos basado en Mixup (MKD) que combina Mixup, un método de aumento de datos agnóstico de datos, con la destilación de conocimientos a nivel de softmax. Se presenta una mezcla a nivel de pérdida para abordar el problema causado por la no linealidad de la etiqueta en la divergencia KL al adoptar Mixup en el marco profesor-alumno. Se muestra matemáticamente que optimizar la mezcla de la función de pérdida es equivalente a optimizar un límite superior de la pérdida original de destilación de conocimientos. El MKD propuesto aprovecha Mixup y aporta robustez al modelo incluso con una pequeña cantidad de datos de entrenamiento. Los experimentos en Aishell-1 muestran que MKD obtiene una mejora relativa del 15,6% y 3,3% en dos modelos de estudiantes con diferentes escalas de parámetros en comparación con los métodos existentes. Los experimentos sobre eficiencia de datos demuestran que MKD logra resultados similares con solo la mitad del conjunto de datos original.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro