Un estudio de modelos de aprendizaje profundo para la clasificación de llantos de bebés en un sistema de monitoreo infantil
Autores: Herlea, Denisa Maria; Iancu, Bogdan; Ardelean, Eugen-Richard
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un estudio de modelos de aprendizaje profundo para la clasificación de llantos de bebés en un sistema de monitoreo infantil
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de aprendizaje profundo
Detección de llanto de bebés
Algoritmos de aprendizaje automático
Basado en audio
ResNet50
DenseNet
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este estudio investiga la capacidad de modelos de aprendizaje profundo bien conocidos, como ResNet y EfficientNet, para realizar la detección de llantos de bebés basada en audio. Al comparar el rendimiento de diferentes algoritmos de aprendizaje automático, este estudio busca determinar el enfoque más efectivo para la detección del llanto infantil, mejorando la funcionalidad de los sistemas de monitoreo de bebés y contribuyendo a una comprensión más avanzada de las aplicaciones de aprendizaje profundo basadas en audio. Comprender y detectar con precisión los llantos de un bebé es crucial para garantizar su seguridad y bienestar, una preocupación compartida por padres nuevos y en espera en todo el mundo. A pesar de los avances en la salud infantil, como señala el informe de UNICEF de 2022 sobre la tasa de mortalidad infantil más baja registrada, aún hay margen para la mejora tecnológica. Este documento presenta una evaluación integral de modelos de aprendizaje profundo para la detección de llantos de bebés, analizando el rendimiento de varias arquitecturas en representaciones de espectrogramas y características MFCC. Un enfoque clave es la comparación entre modelos preentrenados y no preentrenados, evaluando su capacidad para generalizar en diversos entornos de audio. A través de experimentación extensa, ResNet50 y DenseNet entrenados en espectrogramas surgieron como las arquitecturas más efectivas, superando significativamente a otros modelos en precisión de clasificación. Además, el estudio investiga el impacto de las técnicas de extracción de características, la augmentación de conjuntos de datos y el ajuste fino de modelos, proporcionando una visión más profunda sobre el papel del aprendizaje de representación en la clasificación de audio. Los hallazgos contribuyen al creciente campo de aplicaciones de aprendizaje profundo basadas en audio, ofreciendo un estudio comparativo detallado de arquitecturas de modelos, representaciones de características y estrategias de entrenamiento para la detección de llantos de bebés.
Descripción
Este estudio investiga la capacidad de modelos de aprendizaje profundo bien conocidos, como ResNet y EfficientNet, para realizar la detección de llantos de bebés basada en audio. Al comparar el rendimiento de diferentes algoritmos de aprendizaje automático, este estudio busca determinar el enfoque más efectivo para la detección del llanto infantil, mejorando la funcionalidad de los sistemas de monitoreo de bebés y contribuyendo a una comprensión más avanzada de las aplicaciones de aprendizaje profundo basadas en audio. Comprender y detectar con precisión los llantos de un bebé es crucial para garantizar su seguridad y bienestar, una preocupación compartida por padres nuevos y en espera en todo el mundo. A pesar de los avances en la salud infantil, como señala el informe de UNICEF de 2022 sobre la tasa de mortalidad infantil más baja registrada, aún hay margen para la mejora tecnológica. Este documento presenta una evaluación integral de modelos de aprendizaje profundo para la detección de llantos de bebés, analizando el rendimiento de varias arquitecturas en representaciones de espectrogramas y características MFCC. Un enfoque clave es la comparación entre modelos preentrenados y no preentrenados, evaluando su capacidad para generalizar en diversos entornos de audio. A través de experimentación extensa, ResNet50 y DenseNet entrenados en espectrogramas surgieron como las arquitecturas más efectivas, superando significativamente a otros modelos en precisión de clasificación. Además, el estudio investiga el impacto de las técnicas de extracción de características, la augmentación de conjuntos de datos y el ajuste fino de modelos, proporcionando una visión más profunda sobre el papel del aprendizaje de representación en la clasificación de audio. Los hallazgos contribuyen al creciente campo de aplicaciones de aprendizaje profundo basadas en audio, ofreciendo un estudio comparativo detallado de arquitecturas de modelos, representaciones de características y estrategias de entrenamiento para la detección de llantos de bebés.