Detección selectiva de atención auditiva utilizando redes neuronales gráficas convolucionales y de transformador combinadas
Autores: Geravanchizadeh, Masoud; Shaygan Asl, Amir; Danishvar, Sebelan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Detección selectiva de atención auditiva utilizando redes neuronales gráficas convolucionales y de transformador combinadas
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Atención
Auditiva
EEG
TraGCNN
Detección
Modelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
La atención es una de las muchas funciones cognitivas humanas que son esenciales en la vida cotidiana. Dada nuestra capacidad de procesamiento limitada, la atención nos ayuda a enfocarnos solo en lo que importa. Enfocar la atención en un único hablante en un entorno con muchos hablantes es una habilidad crítica del sistema auditivo humano. Este documento propone un nuevo método de extremo a extremo basado en la combinación de transformadores y redes neuronales convolucionales gráficas (TraGCNN) que puede detectar eficazmente la atención auditiva a partir de electroencefalogramas (EEG). Este enfoque elimina la necesidad de extracción manual de características, lo cual suele ser consumidor de tiempo y subjetivo. Aquí, las primeras señales de EEG se convierten en gráficos. Luego extraemos información de atención de estos gráficos utilizando enfoques espaciales y temporales. Finalmente, nuestros modelos se entrenan con estos datos. Nuestro modelo puede detectar la atención auditiva tanto en los dominios espaciales como temporales. Aquí, la entrada de EEG se procesa primero por capas de transformadores para obtener una representación secuencial de EEG basada en onsets de atención. Luego, se utilizan una familia de capas convolucionales gráficas para encontrar los electrodos más activos utilizando la posición espacial de los electrodos. Finalmente, las características de EEG correspondientes de los electrodos activos se alimentan en las capas de atención gráfica para detectar la atención auditiva. El conjunto de datos Fuglsang 2020 se utiliza en los experimentos para entrenar y probar los sistemas propuestos y de referencia. El nuevo enfoque TraGCNN, en comparación con los métodos de clasificación de atención de vanguardia de la literatura, produce el mejor rendimiento en términos de precisión (80.12%) como métrica de clasificación. Además, el modelo propuesto resulta en un rendimiento superior a nuestro modelo anterior basado en gráficos para diferentes longitudes de segmentos de EEG. El nuevo enfoque TraGCNN es ventajoso porque la detección de la atención se logra a partir de señales de EEG de sujetos sin necesidad de estímulos de habla, como es el caso con los métodos convencionales de detección de atención auditiva. Además, al examinar el modelo propuesto para diferentes longitudes de segmentos de EEG, se muestra que el modelo es más rápido que nuestro método de detección anterior basado en gráficos en términos de complejidad computacional. Los hallazgos de este estudio tienen importantes implicaciones para la comprensión y evaluación de la atención auditiva, la cual es crucial para muchas aplicaciones, como sistemas de interfaz cerebro-computadora (BCI), separación de habla y desarrollo de audífonos neuro-dirigidos.
Descripción
La atención es una de las muchas funciones cognitivas humanas que son esenciales en la vida cotidiana. Dada nuestra capacidad de procesamiento limitada, la atención nos ayuda a enfocarnos solo en lo que importa. Enfocar la atención en un único hablante en un entorno con muchos hablantes es una habilidad crítica del sistema auditivo humano. Este documento propone un nuevo método de extremo a extremo basado en la combinación de transformadores y redes neuronales convolucionales gráficas (TraGCNN) que puede detectar eficazmente la atención auditiva a partir de electroencefalogramas (EEG). Este enfoque elimina la necesidad de extracción manual de características, lo cual suele ser consumidor de tiempo y subjetivo. Aquí, las primeras señales de EEG se convierten en gráficos. Luego extraemos información de atención de estos gráficos utilizando enfoques espaciales y temporales. Finalmente, nuestros modelos se entrenan con estos datos. Nuestro modelo puede detectar la atención auditiva tanto en los dominios espaciales como temporales. Aquí, la entrada de EEG se procesa primero por capas de transformadores para obtener una representación secuencial de EEG basada en onsets de atención. Luego, se utilizan una familia de capas convolucionales gráficas para encontrar los electrodos más activos utilizando la posición espacial de los electrodos. Finalmente, las características de EEG correspondientes de los electrodos activos se alimentan en las capas de atención gráfica para detectar la atención auditiva. El conjunto de datos Fuglsang 2020 se utiliza en los experimentos para entrenar y probar los sistemas propuestos y de referencia. El nuevo enfoque TraGCNN, en comparación con los métodos de clasificación de atención de vanguardia de la literatura, produce el mejor rendimiento en términos de precisión (80.12%) como métrica de clasificación. Además, el modelo propuesto resulta en un rendimiento superior a nuestro modelo anterior basado en gráficos para diferentes longitudes de segmentos de EEG. El nuevo enfoque TraGCNN es ventajoso porque la detección de la atención se logra a partir de señales de EEG de sujetos sin necesidad de estímulos de habla, como es el caso con los métodos convencionales de detección de atención auditiva. Además, al examinar el modelo propuesto para diferentes longitudes de segmentos de EEG, se muestra que el modelo es más rápido que nuestro método de detección anterior basado en gráficos en términos de complejidad computacional. Los hallazgos de este estudio tienen importantes implicaciones para la comprensión y evaluación de la atención auditiva, la cual es crucial para muchas aplicaciones, como sistemas de interfaz cerebro-computadora (BCI), separación de habla y desarrollo de audífonos neuro-dirigidos.