Sistema eficiente y robusto de reconocimiento de comandos de voz automotrices en árabe
Autores: Ouali, Soufiyan; El Garouani, Said
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Sistema eficiente y robusto de reconocimiento de comandos de voz automotrices en árabe
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Automotriz
Reconocimiento de voz
árabe
Sistema
Conjunto de datos
Características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
El campo de reconocimiento de voz automotriz se ha convertido en un tema de investigación activo, ya que permite a los conductores activar varias funcionalidades dentro del automóvil sin distraerse. Sin embargo, la investigación en árabe sigue siendo incipiente en comparación con el inglés, francés y alemán. Por lo tanto, este documento presenta un sistema de reconocimiento de voz automotriz en árabe marroquí. Nuestro sistema tiene como objetivo mejorar la experiencia de conducción para que sea cómoda y segura al mismo tiempo que ayuda a las personas con discapacidades. Creamos un conjunto de datos de voz que comprende 20 comandos de automóvil comúnmente utilizados. Consiste en 5600 instancias recopiladas de colaboradores marroquíes y grabadas en entornos limpios y ruidosos para aumentar su representatividad. Utilizamos MFCC, MFCC ponderado y Centroides de Subbandas Espectrales (SSC) para la extracción de características, ya que demostraron resultados prometedores en entornos ruidosos. Para la construcción del clasificador, propusimos una arquitectura híbrida, que consiste en una Memoria a Corto y Largo Plazo Bidireccional (Bi-LSTM) y la Red Neuronal Convolucional (CNN). Entrenar nuestro modelo propuesto con características de WMFCC y SSC logró una precisión del 98.48%, superando a todos los modelos base que entrenamos y superando las soluciones existentes en la literatura de vanguardia. Además, muestra resultados prometedores en un entorno limpio y ruidoso y mantiene la resistencia al ruido gaussiano aditivo mientras utiliza pocos recursos computacionales.
Descripción
El campo de reconocimiento de voz automotriz se ha convertido en un tema de investigación activo, ya que permite a los conductores activar varias funcionalidades dentro del automóvil sin distraerse. Sin embargo, la investigación en árabe sigue siendo incipiente en comparación con el inglés, francés y alemán. Por lo tanto, este documento presenta un sistema de reconocimiento de voz automotriz en árabe marroquí. Nuestro sistema tiene como objetivo mejorar la experiencia de conducción para que sea cómoda y segura al mismo tiempo que ayuda a las personas con discapacidades. Creamos un conjunto de datos de voz que comprende 20 comandos de automóvil comúnmente utilizados. Consiste en 5600 instancias recopiladas de colaboradores marroquíes y grabadas en entornos limpios y ruidosos para aumentar su representatividad. Utilizamos MFCC, MFCC ponderado y Centroides de Subbandas Espectrales (SSC) para la extracción de características, ya que demostraron resultados prometedores en entornos ruidosos. Para la construcción del clasificador, propusimos una arquitectura híbrida, que consiste en una Memoria a Corto y Largo Plazo Bidireccional (Bi-LSTM) y la Red Neuronal Convolucional (CNN). Entrenar nuestro modelo propuesto con características de WMFCC y SSC logró una precisión del 98.48%, superando a todos los modelos base que entrenamos y superando las soluciones existentes en la literatura de vanguardia. Además, muestra resultados prometedores en un entorno limpio y ruidoso y mantiene la resistencia al ruido gaussiano aditivo mientras utiliza pocos recursos computacionales.