logo móvil
Contáctanos

La ampliación de datos para el reconocimiento de huellas de voz mediante redes generativas adversarias

Autores: Lin, Yao-San; Chen, Hung-Yu; Huang, Mei-Ling; Hsieh, Tsung-Yu

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

La ampliación de datos para el reconocimiento de huellas de voz mediante redes generativas adversarias


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Impresión vocal
Sistemas de reconocimiento
Conjuntos de datos
Redes generativas adversarias
Redes neuronales convolucionales
Coeficientes cepstrales de frecuencia mel.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
Los sistemas de reconocimiento de voz a menudo enfrentan desafíos relacionados con conjuntos de datos limitados y diversos, que obstaculizan su rendimiento y capacidades de generalización. Este estudio propone un enfoque novedoso que integra redes generativas adversarias (GANs) para aumentar datos y redes neuronales convolucionales (CNNs) con coeficientes cepstrales de frecuencia melódica (MFCCs) para la clasificación de huellas de voz. Los resultados experimentales demuestran que la metodología propuesta mejora la precisión de reconocimiento hasta en un 15% en escenarios de recursos limitados. La proporción óptima de muestras reales a generadas por GAN se determinó como 3:2, lo que equilibró la diversidad del conjunto de datos y el rendimiento del modelo. En casos específicos, el modelo logró una precisión del 96.6%, mostrando su efectividad en capturar características vocales únicas mientras mitiga el sobreajuste. Estos resultados resaltan el potencial de combinar datos aumentados por GAN y clasificación basada en CNN para mejorar el reconocimiento de huellas de voz en entornos diversos y con recursos limitados.

Otros recursos que podrían interesarte

Temas Virtualpro