La ampliación de datos para el reconocimiento de huellas de voz mediante redes generativas adversarias
Autores: Lin, Yao-San; Chen, Hung-Yu; Huang, Mei-Ling; Hsieh, Tsung-Yu
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
La ampliación de datos para el reconocimiento de huellas de voz mediante redes generativas adversarias
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Impresión vocal
Sistemas de reconocimiento
Conjuntos de datos
Redes generativas adversarias
Redes neuronales convolucionales
Coeficientes cepstrales de frecuencia mel.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Los sistemas de reconocimiento de voz a menudo enfrentan desafíos relacionados con conjuntos de datos limitados y diversos, que obstaculizan su rendimiento y capacidades de generalización. Este estudio propone un enfoque novedoso que integra redes generativas adversarias (GANs) para aumentar datos y redes neuronales convolucionales (CNNs) con coeficientes cepstrales de frecuencia melódica (MFCCs) para la clasificación de huellas de voz. Los resultados experimentales demuestran que la metodología propuesta mejora la precisión de reconocimiento hasta en un 15% en escenarios de recursos limitados. La proporción óptima de muestras reales a generadas por GAN se determinó como 3:2, lo que equilibró la diversidad del conjunto de datos y el rendimiento del modelo. En casos específicos, el modelo logró una precisión del 96.6%, mostrando su efectividad en capturar características vocales únicas mientras mitiga el sobreajuste. Estos resultados resaltan el potencial de combinar datos aumentados por GAN y clasificación basada en CNN para mejorar el reconocimiento de huellas de voz en entornos diversos y con recursos limitados.
Descripción
Los sistemas de reconocimiento de voz a menudo enfrentan desafíos relacionados con conjuntos de datos limitados y diversos, que obstaculizan su rendimiento y capacidades de generalización. Este estudio propone un enfoque novedoso que integra redes generativas adversarias (GANs) para aumentar datos y redes neuronales convolucionales (CNNs) con coeficientes cepstrales de frecuencia melódica (MFCCs) para la clasificación de huellas de voz. Los resultados experimentales demuestran que la metodología propuesta mejora la precisión de reconocimiento hasta en un 15% en escenarios de recursos limitados. La proporción óptima de muestras reales a generadas por GAN se determinó como 3:2, lo que equilibró la diversidad del conjunto de datos y el rendimiento del modelo. En casos específicos, el modelo logró una precisión del 96.6%, mostrando su efectividad en capturar características vocales únicas mientras mitiga el sobreajuste. Estos resultados resaltan el potencial de combinar datos aumentados por GAN y clasificación basada en CNN para mejorar el reconocimiento de huellas de voz en entornos diversos y con recursos limitados.