Reconocimiento de voz en el vehículo para el control de UAV impulsado por voz en un entorno colaborativo de MAV y UAV
Autores: Park, Jeong-Sik; Geng, Na
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento de voz en el vehículo para el control de UAV impulsado por voz en un entorno colaborativo de MAV y UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Sistemas de reconocimiento de voz
UAVs
MAVs
Comandos de control
Modelo acústico
Módulos de post-procesamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
La mayoría de los sistemas convencionales de reconocimiento de voz se han concentrado principalmente en el control por voz de dispositivos personales del usuario, como los teléfonos inteligentes. Por lo tanto, es necesario desarrollar un sistema de reconocimiento de voz utilizado en un entorno especial, teniendo en cuenta el entorno. En este estudio, se propone un marco de reconocimiento de voz para el control por voz de vehículos aéreos no tripulados (VANT) en un entorno colaborativo entre vehículos aéreos tripulados (VAT) y VANT, donde múltiples VAT y VANT vuelan juntos, y los pilotos a bordo de los VAT controlan múltiples VANT con sus voces. Los sistemas estándar de reconocimiento de voz constan de varios módulos, incluidos el front-end, el reconocimiento y el post-procesamiento. Entre ellos, este estudio se centra en los módulos de reconocimiento y post-procesamiento en términos de reconocimiento de voz en vehículos. Para controlar de manera estable los VANT a través de la voz, es necesario manejar cuidadosamente las condiciones ambientales de los VANT. Primero, definimos los comandos de control que el piloto del VAT entrega a los VANT y construimos datos de entrenamiento. A continuación, para el módulo de reconocimiento, investigamos un modelo acústico adecuado para las características de los comandos de control de los VANT y el sistema VANT con limitaciones de recursos de hardware. Finalmente, se proponen dos enfoques para el post-procesamiento: análisis sintáctico basado en redes gramaticales y análisis semántico basado en transacciones. Para la evaluación, desarrollamos un sistema de reconocimiento de voz en un entorno de simulación colaborativa entre un VAT y un VANT y verificamos con éxito la validez de cada módulo. Como resultado de los experimentos de reconocimiento de palabras conectadas que consisten en dos a cinco palabras, las tasas de reconocimiento de los modelos acústicos basados en el modelo oculto de Markov (HMM) y en redes neuronales profundas (DNN) fueron del 98.2% y del 98.4%, respectivamente. Sin embargo, en términos de cantidad computacional, el modelo HMM fue aproximadamente 100 veces más eficiente que el DNN. Además, la mejora relativa en la tasa de error con el post-procesamiento propuesto fue de aproximadamente el 65%.
Descripción
La mayoría de los sistemas convencionales de reconocimiento de voz se han concentrado principalmente en el control por voz de dispositivos personales del usuario, como los teléfonos inteligentes. Por lo tanto, es necesario desarrollar un sistema de reconocimiento de voz utilizado en un entorno especial, teniendo en cuenta el entorno. En este estudio, se propone un marco de reconocimiento de voz para el control por voz de vehículos aéreos no tripulados (VANT) en un entorno colaborativo entre vehículos aéreos tripulados (VAT) y VANT, donde múltiples VAT y VANT vuelan juntos, y los pilotos a bordo de los VAT controlan múltiples VANT con sus voces. Los sistemas estándar de reconocimiento de voz constan de varios módulos, incluidos el front-end, el reconocimiento y el post-procesamiento. Entre ellos, este estudio se centra en los módulos de reconocimiento y post-procesamiento en términos de reconocimiento de voz en vehículos. Para controlar de manera estable los VANT a través de la voz, es necesario manejar cuidadosamente las condiciones ambientales de los VANT. Primero, definimos los comandos de control que el piloto del VAT entrega a los VANT y construimos datos de entrenamiento. A continuación, para el módulo de reconocimiento, investigamos un modelo acústico adecuado para las características de los comandos de control de los VANT y el sistema VANT con limitaciones de recursos de hardware. Finalmente, se proponen dos enfoques para el post-procesamiento: análisis sintáctico basado en redes gramaticales y análisis semántico basado en transacciones. Para la evaluación, desarrollamos un sistema de reconocimiento de voz en un entorno de simulación colaborativa entre un VAT y un VANT y verificamos con éxito la validez de cada módulo. Como resultado de los experimentos de reconocimiento de palabras conectadas que consisten en dos a cinco palabras, las tasas de reconocimiento de los modelos acústicos basados en el modelo oculto de Markov (HMM) y en redes neuronales profundas (DNN) fueron del 98.2% y del 98.4%, respectivamente. Sin embargo, en términos de cantidad computacional, el modelo HMM fue aproximadamente 100 veces más eficiente que el DNN. Además, la mejora relativa en la tasa de error con el post-procesamiento propuesto fue de aproximadamente el 65%.