Voice-AttentionNet: detección multi-enfermedad basada en voz con red neuronal convolucional temporal liviana basada en atención
Autores: Wang, Jintao; Zhou, Jianhang; Zhang, Bob
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Voice-AttentionNet: detección multi-enfermedad basada en voz con red neuronal convolucional temporal liviana basada en atención
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Datos de voz
Información temporal y espectral
Clasificación de enfermedades
Red neuronal convolucional temporal basada en atención
Enfoque de detección de múltiples enfermedades
Mecanismos de atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Los datos de voz contienen una gran cantidad de información temporal y espectral y pueden ser un recurso valioso para la clasificación de enfermedades. Sin embargo, los métodos tradicionales a menudo no son efectivos para capturar las características clave necesarias para la clasificación de múltiples clases de enfermedades. Para abordar este desafío, proponemos un enfoque de detección de múltiples enfermedades basado en voz con una red neuronal convolucional temporal con atención ligera (Voice-AttentionNet) diseñada para analizar datos de voz para la clasificación de enfermedades de múltiples clases. Nuestro modelo utiliza la arquitectura de red neuronal convolucional temporal (CNN) para extraer características temporales de alta resolución, al tiempo que incorpora mecanismos de atención para resaltar patrones relacionados con enfermedades. Se han realizado experimentos extensos en nuestro conjunto de datos, que incluye muestras de voz de pacientes con múltiples enfermedades. Los resultados muestran que nuestro método logra el rendimiento más avanzado con una precisión de clasificación promedio del 91.61% en seis conjuntos de datos y es superior a los modelos clásicos existentes. Estos hallazgos resaltan el potencial de combinar mecanismos de atención con CNN temporales en el uso de datos de voz para la clasificación de enfermedades. Además, este estudio proporciona una dirección prometedora para implementar herramientas de diagnóstico impulsadas por IA en escenarios clínicos.
Descripción
Los datos de voz contienen una gran cantidad de información temporal y espectral y pueden ser un recurso valioso para la clasificación de enfermedades. Sin embargo, los métodos tradicionales a menudo no son efectivos para capturar las características clave necesarias para la clasificación de múltiples clases de enfermedades. Para abordar este desafío, proponemos un enfoque de detección de múltiples enfermedades basado en voz con una red neuronal convolucional temporal con atención ligera (Voice-AttentionNet) diseñada para analizar datos de voz para la clasificación de enfermedades de múltiples clases. Nuestro modelo utiliza la arquitectura de red neuronal convolucional temporal (CNN) para extraer características temporales de alta resolución, al tiempo que incorpora mecanismos de atención para resaltar patrones relacionados con enfermedades. Se han realizado experimentos extensos en nuestro conjunto de datos, que incluye muestras de voz de pacientes con múltiples enfermedades. Los resultados muestran que nuestro método logra el rendimiento más avanzado con una precisión de clasificación promedio del 91.61% en seis conjuntos de datos y es superior a los modelos clásicos existentes. Estos hallazgos resaltan el potencial de combinar mecanismos de atención con CNN temporales en el uso de datos de voz para la clasificación de enfermedades. Además, este estudio proporciona una dirección prometedora para implementar herramientas de diagnóstico impulsadas por IA en escenarios clínicos.