logo móvil
Contáctanos

Red combinada de detección y localización de palabras clave basada en el aprendizaje de múltiples tareas

Autores: Ko, Jungbeom; Kim, Hyunchul; Kim, Jungsuk

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Red combinada de detección y localización de palabras clave basada en el aprendizaje de múltiples tareas


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Tecnología de asistencia por voz
Detección de palabras clave
Localización de fuente de sonido
Modelo de red neuronal
Aprendizaje multitarea
Codificador compartido

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
El advenimiento de la tecnología de asistencia por voz y su integración en dispositivos inteligentes ha facilitado muchos servicios útiles, como el envío de mensajes de texto y la ejecución de aplicaciones. Sin embargo, la mayoría de las tecnologías de asistencia carecen de la capacidad para permitir que el sistema actúe como un humano que pueda localizar al hablante y detectar selectivamente palabras clave significativas. Dado que la detección de palabras clave (KWS) y la localización de la fuente de sonido (SSL) son esenciales y deben operar en tiempo real, la eficiencia de un modelo de red neuronal es crucial para la memoria y la computación. En este documento, se propone un único modelo de red neuronal para KWS y SSL para superar las limitaciones de KWS y SSL secuenciales, que requieren más memoria y tiempo de inferencia. El modelo propuesto utiliza el aprendizaje multi-tarea para utilizar eficientemente los recursos limitados del dispositivo. Se utiliza un codificador compartido como capa inicial para extraer características comunes de los datos de audio multicanal. Posteriormente, las capas paralelas específicas de la tarea utilizan estas características para KWS y SSL. El modelo propuesto se evaluó en un conjunto de datos sintético con varios hablantes, y se identificó una estructura de codificador compartido de 7 módulos como óptima en cuanto a precisión, precisión de la dirección de llegada (DOA), error de DOA y latencia. Logró una precisión de KWS del 94.51%, un error de DOA de 12.397 grados y una precisión de DOA del 89.86%. En consecuencia, el modelo propuesto requiere significativamente menos memoria debido a la arquitectura de red compartida, lo que mejora el tiempo de inferencia sin comprometer la precisión de KWS, el error de DOA y la precisión de DOA.

Otros recursos que podrían interesarte

Temas Virtualpro