Red combinada de detección y localización de palabras clave basada en el aprendizaje de múltiples tareas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Red combinada de detección y localización de palabras clave basada en el aprendizaje de múltiples tareas

Autores: Ko, Jungbeom; Kim, Hyunchul; Kim, Jungsuk

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Red combinada de detección y localización de palabras clave basada en el aprendizaje de múltiples tareas

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Tecnología de asistencia por voz

Detección de palabras clave

Localización de fuente de sonido

Modelo de red neuronal

Aprendizaje multitarea

Codificador compartido

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones

El advenimiento de la tecnología de asistencia por voz y su integración en dispositivos inteligentes ha facilitado muchos servicios útiles, como el envío de mensajes de texto y la ejecución de aplicaciones. Sin embargo, la mayoría de las tecnologías de asistencia carecen de la capacidad para permitir que el sistema actúe como un humano que pueda localizar al hablante y detectar selectivamente palabras clave significativas. Dado que la detección de palabras clave (KWS) y la localización de la fuente de sonido (SSL) son esenciales y deben operar en tiempo real, la eficiencia de un modelo de red neuronal es crucial para la memoria y la computación. En este documento, se propone un único modelo de red neuronal para KWS y SSL para superar las limitaciones de KWS y SSL secuenciales, que requieren más memoria y tiempo de inferencia. El modelo propuesto utiliza el aprendizaje multi-tarea para utilizar eficientemente los recursos limitados del dispositivo. Se utiliza un codificador compartido como capa inicial para extraer características comunes de los datos de audio multicanal. Posteriormente, las capas paralelas específicas de la tarea utilizan estas características para KWS y SSL. El modelo propuesto se evaluó en un conjunto de datos sintético con varios hablantes, y se identificó una estructura de codificador compartido de 7 módulos como óptima en cuanto a precisión, precisión de la dirección de llegada (DOA), error de DOA y latencia. Logró una precisión de KWS del 94.51%, un error de DOA de 12.397 grados y una precisión de DOA del 89.86%. En consecuencia, el modelo propuesto requiere significativamente menos memoria debido a la arquitectura de red compartida, lo que mejora el tiempo de inferencia sin comprometer la precisión de KWS, el error de DOA y la precisión de DOA.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro