Dfnet: red de fusión desacoplada para el reconocimiento del habla dialectal
Autores: Zhu, Qianqiao; Gao, Lu; Qin, Ling
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Dfnet: red de fusión desacoplada para el reconocimiento del habla dialectal
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje profundo
Reconocimiento de dialectos
Mandarín
Dialectos
Red de Fusión Desacoplada
Características acústicas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
El aprendizaje profundo a menudo es insuficiente para lograr un reconocimiento efectivo de dialectos en situaciones donde los datos son limitados y el entrenamiento del modelo es complejo. Las diferencias entre el mandarín y los dialectos, como las variantes de pronunciación variadas y las características lingüísticas distintas de los dialectos, a menudo resultan en una disminución significativa en el rendimiento de reconocimiento. Además, el trabajo existente a menudo pasa por alto las similitudes entre el mandarín y sus dialectos y no aprovecha estas conexiones para mejorar la precisión de reconocimiento. Para abordar estos desafíos, proponemos la Red de Fusión Desacoplada (DFNet). Esta red extrae características acústicas privadas y compartidas de diferentes idiomas a través del desacoplamiento de características, lo que mejora la adaptación a la singularidad y similitud de estos dos patrones de habla. Además, diseñamos un módulo de fusión ponderada de información heterogénea para combinar eficazmente las características desacopladas del mandarín y los dialectos. Esta estrategia aprovecha la similitud entre el mandarín y sus dialectos, permitiendo el intercambio de información multilingüe, y mejora notablemente las capacidades de reconocimiento del modelo en datos de dialectos de recursos limitados. Una evaluación de nuestro método en los conjuntos de datos de Henan y Guangdong muestra que el rendimiento de DFNet ha mejorado en un 2.64% y 2.68%, respectivamente. Además, un número significativo de experimentos de comparación de ablación demuestran la efectividad del método.
Descripción
El aprendizaje profundo a menudo es insuficiente para lograr un reconocimiento efectivo de dialectos en situaciones donde los datos son limitados y el entrenamiento del modelo es complejo. Las diferencias entre el mandarín y los dialectos, como las variantes de pronunciación variadas y las características lingüísticas distintas de los dialectos, a menudo resultan en una disminución significativa en el rendimiento de reconocimiento. Además, el trabajo existente a menudo pasa por alto las similitudes entre el mandarín y sus dialectos y no aprovecha estas conexiones para mejorar la precisión de reconocimiento. Para abordar estos desafíos, proponemos la Red de Fusión Desacoplada (DFNet). Esta red extrae características acústicas privadas y compartidas de diferentes idiomas a través del desacoplamiento de características, lo que mejora la adaptación a la singularidad y similitud de estos dos patrones de habla. Además, diseñamos un módulo de fusión ponderada de información heterogénea para combinar eficazmente las características desacopladas del mandarín y los dialectos. Esta estrategia aprovecha la similitud entre el mandarín y sus dialectos, permitiendo el intercambio de información multilingüe, y mejora notablemente las capacidades de reconocimiento del modelo en datos de dialectos de recursos limitados. Una evaluación de nuestro método en los conjuntos de datos de Henan y Guangdong muestra que el rendimiento de DFNet ha mejorado en un 2.64% y 2.68%, respectivamente. Además, un número significativo de experimentos de comparación de ablación demuestran la efectividad del método.