Eficiente reducción de dimensionalidad de señales de voz utilizando técnicas de valores complejos
Autores: Ko, Sungkyun; Park, Minho
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Eficiente reducción de dimensionalidad de señales de voz utilizando técnicas de valores complejos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Algoritmo propuesto
Reducción de dimensionalidad
Señales de voz
Técnica de MFCC de valores complejos
Red neuronal
Método de interpretación softmax
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
En este estudio, proponemos el algoritmo CVMFCC-DR (Coeficientes Cepstrales Mel-Frecuencia de Valor Complejo para Reducción de Dimensionalidad) como un método eficiente para reducir la dimensionalidad de las señales de voz. Al utilizar la técnica de MFCC de valor complejo, que considera tanto los componentes reales como imaginarios, nuestro algoritmo permite la reducción de la dimensionalidad sin pérdida de información y disminuyendo los costos computacionales. La eficacia del algoritmo propuesto se valida a través de experimentos que demuestran su efectividad en la construcción de un modelo de reconocimiento de voz utilizando una red neuronal de valor complejo. Además, se introduce un método de interpretación de softmax de valor complejo para números complejos. Los resultados experimentales indican que el enfoque produce un rendimiento mejorado en comparación con las técnicas basadas en MFCC tradicionales, resaltando así su potencial en el campo del reconocimiento de voz.
Descripción
En este estudio, proponemos el algoritmo CVMFCC-DR (Coeficientes Cepstrales Mel-Frecuencia de Valor Complejo para Reducción de Dimensionalidad) como un método eficiente para reducir la dimensionalidad de las señales de voz. Al utilizar la técnica de MFCC de valor complejo, que considera tanto los componentes reales como imaginarios, nuestro algoritmo permite la reducción de la dimensionalidad sin pérdida de información y disminuyendo los costos computacionales. La eficacia del algoritmo propuesto se valida a través de experimentos que demuestran su efectividad en la construcción de un modelo de reconocimiento de voz utilizando una red neuronal de valor complejo. Además, se introduce un método de interpretación de softmax de valor complejo para números complejos. Los resultados experimentales indican que el enfoque produce un rendimiento mejorado en comparación con las técnicas basadas en MFCC tradicionales, resaltando así su potencial en el campo del reconocimiento de voz.