Rápido cálculo de frecuencias LSP utilizando el método de Bairstow
Autores: Xue, Yuqun; Zhu, Zhijiu; Jiang, Jianhua; Zhan, Yi; Yu, Zenghui; Fan, Xiaohua; Qiao, Shushan
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Rápido cálculo de frecuencias LSP utilizando el método de Bairstow
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Predicción lineal
Procesamiento de voz
Pares de Espectro de Línea (LSPs)
Frecuencias
Algoritmo de cálculo
Raíces polinomiales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
La predicción lineal es la tecnología clave en el procesamiento del habla. Se ha aplicado ampliamente en el reconocimiento, síntesis y codificación del habla, y puede representar eficiente y correctamente el espectro de frecuencia del habla con solo unos pocos parámetros. Las frecuencias de Pares de Espectro Lineal (LSPs), como una representación alternativa de la Codificación Predictiva Lineal (LPC), tienen las ventajas de una buena precisión de cuantización y una baja sensibilidad espectral. Sin embargo, el cálculo de las frecuencias LSPs lleva mucho tiempo. Para abordar este problema, en este artículo se propone un algoritmo de cálculo rápido, basado en el método de Bairstow para calcular las frecuencias LSPs a partir de los coeficientes de predicción lineal. El proceso del algoritmo primero transforma el polinomio simétrico y antisimétrico en polinomio general, luego extrae las raíces del polinomio. Asociado con la propiedad de estacionariedad a corto plazo de la señal de habla, se aplica un método inicial adaptativo para reducir el número promedio de iteraciones en un 26%, en comparación con la estática en el método inicial, con una puntuación de Evaluación Perceptual de la Calidad del Habla (PESQ) de 3.46. Los resultados experimentales muestran que el método propuesto puede extraer las raíces del polinomio de manera eficiente y precisa con una complejidad de cálculo significativamente reducida. En comparación con trabajos anteriores, el método propuesto es 17 veces más rápido que la Transformada de Tschirnhus, y tiene una mejora del 22% en PESQ en el método de Birge-Vieta con un tiempo de cálculo casi comparable.
Descripción
La predicción lineal es la tecnología clave en el procesamiento del habla. Se ha aplicado ampliamente en el reconocimiento, síntesis y codificación del habla, y puede representar eficiente y correctamente el espectro de frecuencia del habla con solo unos pocos parámetros. Las frecuencias de Pares de Espectro Lineal (LSPs), como una representación alternativa de la Codificación Predictiva Lineal (LPC), tienen las ventajas de una buena precisión de cuantización y una baja sensibilidad espectral. Sin embargo, el cálculo de las frecuencias LSPs lleva mucho tiempo. Para abordar este problema, en este artículo se propone un algoritmo de cálculo rápido, basado en el método de Bairstow para calcular las frecuencias LSPs a partir de los coeficientes de predicción lineal. El proceso del algoritmo primero transforma el polinomio simétrico y antisimétrico en polinomio general, luego extrae las raíces del polinomio. Asociado con la propiedad de estacionariedad a corto plazo de la señal de habla, se aplica un método inicial adaptativo para reducir el número promedio de iteraciones en un 26%, en comparación con la estática en el método inicial, con una puntuación de Evaluación Perceptual de la Calidad del Habla (PESQ) de 3.46. Los resultados experimentales muestran que el método propuesto puede extraer las raíces del polinomio de manera eficiente y precisa con una complejidad de cálculo significativamente reducida. En comparación con trabajos anteriores, el método propuesto es 17 veces más rápido que la Transformada de Tschirnhus, y tiene una mejora del 22% en PESQ en el método de Birge-Vieta con un tiempo de cálculo casi comparable.