Detección de depresión en el habla utilizando Transformer y redes neuronales convolucionales paralelas
Autores: Yin, Faming; Du, Jing; Xu, Xinzhou; Zhao, Li
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Detección de depresión en el habla utilizando Transformer y redes neuronales convolucionales paralelas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Depresión
Modalidad de audio
Modelo de aprendizaje profundo
Red neuronal convolucional
Módulo transformador
Resultados experimentales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
Como trastorno mental común, la depresión se convierte en una amenaza importante para la salud humana y puede incluso influir fuertemente en la vida diaria de una persona. Considerando este contexto, es necesario investigar estrategias para detectar automáticamente la depresión, especialmente a través de la modalidad de audio representada por segmentos de habla, principalmente debido a la eficiente información latente incluida en el habla al describir la depresión. Sin embargo, la mayoría de los trabajos existentes se centran en apilar redes profundas en la detección de depresión basada en audio, lo que puede llevar a un conocimiento insuficiente para representar la depresión en el habla. En este sentido, proponemos un modelo de aprendizaje profundo basado en una red neuronal convolucional paralela y un transformador para extraer información efectiva con una complejidad aceptable. El enfoque propuesto consta de un módulo de red neuronal convolucional paralela (CNN paralela) utilizado para centrarse en el conocimiento local, mientras que un módulo de transformador se emplea como la otra corriente paralela para percibir información secuencial temporal utilizando mecanismos de atención lineal con funciones de kernel. Luego, realizamos experimentos en dos conjuntos de datos de Distress Analysis Interview Corpus-Wizard of OZ (DAIC-WOZ) y Multi-modal Open Dataset for Mental-disorder Analysis (MODMA). Los resultados experimentales indican que el enfoque propuesto logra un mejor rendimiento en comparación con las estrategias de vanguardia.
Descripción
Como trastorno mental común, la depresión se convierte en una amenaza importante para la salud humana y puede incluso influir fuertemente en la vida diaria de una persona. Considerando este contexto, es necesario investigar estrategias para detectar automáticamente la depresión, especialmente a través de la modalidad de audio representada por segmentos de habla, principalmente debido a la eficiente información latente incluida en el habla al describir la depresión. Sin embargo, la mayoría de los trabajos existentes se centran en apilar redes profundas en la detección de depresión basada en audio, lo que puede llevar a un conocimiento insuficiente para representar la depresión en el habla. En este sentido, proponemos un modelo de aprendizaje profundo basado en una red neuronal convolucional paralela y un transformador para extraer información efectiva con una complejidad aceptable. El enfoque propuesto consta de un módulo de red neuronal convolucional paralela (CNN paralela) utilizado para centrarse en el conocimiento local, mientras que un módulo de transformador se emplea como la otra corriente paralela para percibir información secuencial temporal utilizando mecanismos de atención lineal con funciones de kernel. Luego, realizamos experimentos en dos conjuntos de datos de Distress Analysis Interview Corpus-Wizard of OZ (DAIC-WOZ) y Multi-modal Open Dataset for Mental-disorder Analysis (MODMA). Los resultados experimentales indican que el enfoque propuesto logra un mejor rendimiento en comparación con las estrategias de vanguardia.