Aprendizaje profundo para reconocimiento de actividad utilizando audio y video
Autores: Reinolds, Francisco; Neto, Cristiana; Machado, José
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje profundo para reconocimiento de actividad utilizando audio y video
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes neuronales
Detección
Análisis de video
Análisis de audio
Detección de violencia
Transmisiones en tiempo real
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Las redes neuronales se han establecido como potencias en lo que respecta a varios tipos de detección, desde actividades humanas hasta sus emociones. Existen varios tipos de análisis, y el más popular y exitoso es el análisis de video. Sin embargo, hay otros tipos de análisis que, aunque no se utilizan tan a menudo, siguen siendo prometedores. En este artículo, se realiza una comparación entre el análisis de audio y video en un intento de clasificar la detección de violencia en transmisiones en tiempo real. Este estudio, que siguió la metodología CRISP-DM, utilizó varios modelos disponibles a través de PyTorch para probar un conjunto diverso de modelos y lograr resultados robustos. Los resultados obtenidos demostraron por qué el análisis de video tiene tanta prevalencia, con la clasificación de video superando fácilmente a su contraparte de clasificación de audio. Mientras que los modelos de audio obtuvieron en promedio un 76% de precisión, los modelos de video aseguraron puntajes promedio del 89%, mostrando una diferencia significativa en el rendimiento. Este estudio concluyó que los métodos aplicados son bastante prometedores en la detección de violencia, utilizando tanto audio como video.
Descripción
Las redes neuronales se han establecido como potencias en lo que respecta a varios tipos de detección, desde actividades humanas hasta sus emociones. Existen varios tipos de análisis, y el más popular y exitoso es el análisis de video. Sin embargo, hay otros tipos de análisis que, aunque no se utilizan tan a menudo, siguen siendo prometedores. En este artículo, se realiza una comparación entre el análisis de audio y video en un intento de clasificar la detección de violencia en transmisiones en tiempo real. Este estudio, que siguió la metodología CRISP-DM, utilizó varios modelos disponibles a través de PyTorch para probar un conjunto diverso de modelos y lograr resultados robustos. Los resultados obtenidos demostraron por qué el análisis de video tiene tanta prevalencia, con la clasificación de video superando fácilmente a su contraparte de clasificación de audio. Mientras que los modelos de audio obtuvieron en promedio un 76% de precisión, los modelos de video aseguraron puntajes promedio del 89%, mostrando una diferencia significativa en el rendimiento. Este estudio concluyó que los métodos aplicados son bastante prometedores en la detección de violencia, utilizando tanto audio como video.