logo móvil
Contáctanos

Detección de depresión en el habla utilizando Transformer y redes neuronales convolucionales paralelas

Autores: Yin, Faming; Du, Jing; Xu, Xinzhou; Zhao, Li

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Detección de depresión en el habla utilizando Transformer y redes neuronales convolucionales paralelas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Depresión
Modalidad de audio
Modelo de aprendizaje profundo
Red neuronal convolucional
Módulo transformador
Resultados experimentales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 44

Citaciones: Sin citaciones


Descripción
Como trastorno mental común, la depresión se convierte en una amenaza importante para la salud humana y puede incluso influir fuertemente en la vida diaria de una persona. Considerando este contexto, es necesario investigar estrategias para detectar automáticamente la depresión, especialmente a través de la modalidad de audio representada por segmentos de habla, principalmente debido a la eficiente información latente incluida en el habla al describir la depresión. Sin embargo, la mayoría de los trabajos existentes se centran en apilar redes profundas en la detección de depresión basada en audio, lo que puede llevar a un conocimiento insuficiente para representar la depresión en el habla. En este sentido, proponemos un modelo de aprendizaje profundo basado en una red neuronal convolucional paralela y un transformador para extraer información efectiva con una complejidad aceptable. El enfoque propuesto consta de un módulo de red neuronal convolucional paralela (CNN paralela) utilizado para centrarse en el conocimiento local, mientras que un módulo de transformador se emplea como la otra corriente paralela para percibir información secuencial temporal utilizando mecanismos de atención lineal con funciones de kernel. Luego, realizamos experimentos en dos conjuntos de datos de Distress Analysis Interview Corpus-Wizard of OZ (DAIC-WOZ) y Multi-modal Open Dataset for Mental-disorder Analysis (MODMA). Los resultados experimentales indican que el enfoque propuesto logra un mejor rendimiento en comparación con las estrategias de vanguardia.

Otros recursos que podrían interesarte

Temas Virtualpro