Automatización de Radio Web para la Gestión de Flujos de Audio en la Era de Big Data
Autores: Vryzas, Nikolaos; Tsipas, Nikolaos; Dimoulas, Charalampos
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Automatización de Radio Web para la Gestión de Flujos de Audio en la Era de Big Data
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Radio
Medios digitales
Extracción de conocimiento
Aplicación web
Clasificación de altavoces
Red neuronal convolucional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La radio está evolucionando en un ecosistema de medios digitales en cambio. El audio bajo demanda ha moldeado el panorama de los grandes datos de audio no estructurados disponibles en línea. En este documento, se presenta un marco para la extracción de conocimiento, con el fin de mejorar la descubribilidad y el enriquecimiento del contenido proporcionado. Se desarrolla una aplicación web para la producción y transmisión de radio en vivo. La aplicación ofrece funcionalidad típica de mezcla y transmisión en vivo, mientras realiza anotaciones en tiempo real como un proceso en segundo plano al registrar eventos de operación del usuario. Para las necesidades de una estación de radio típica, se entrena un modelo de clasificación de hablantes supervisado para el reconocimiento de 24 hablantes conocidos. El modelo se basa en una arquitectura de red neuronal convolucional (CNN). Dado que no todos los hablantes son conocidos en los programas de radio, también se propone un método de diarización de hablantes basado en CNN. El modelo entrenado se utiliza para la extracción de vectores de identidad de tamaño fijo. Se evalúan varios algoritmos de agrupamiento, teniendo los vectores de identidad como entrada. El modelo de reconocimiento de hablantes supervisado para 24 hablantes obtiene una precisión del 88.34%, mientras que la diarización de hablantes no supervisada alcanza una precisión máxima del 87.22%, según se prueba en un archivo de audio con segmentos de habla de tres hablantes desconocidos. Los resultados se consideran alentadores en cuanto a la aplicabilidad de la metodología propuesta.
Descripción
La radio está evolucionando en un ecosistema de medios digitales en cambio. El audio bajo demanda ha moldeado el panorama de los grandes datos de audio no estructurados disponibles en línea. En este documento, se presenta un marco para la extracción de conocimiento, con el fin de mejorar la descubribilidad y el enriquecimiento del contenido proporcionado. Se desarrolla una aplicación web para la producción y transmisión de radio en vivo. La aplicación ofrece funcionalidad típica de mezcla y transmisión en vivo, mientras realiza anotaciones en tiempo real como un proceso en segundo plano al registrar eventos de operación del usuario. Para las necesidades de una estación de radio típica, se entrena un modelo de clasificación de hablantes supervisado para el reconocimiento de 24 hablantes conocidos. El modelo se basa en una arquitectura de red neuronal convolucional (CNN). Dado que no todos los hablantes son conocidos en los programas de radio, también se propone un método de diarización de hablantes basado en CNN. El modelo entrenado se utiliza para la extracción de vectores de identidad de tamaño fijo. Se evalúan varios algoritmos de agrupamiento, teniendo los vectores de identidad como entrada. El modelo de reconocimiento de hablantes supervisado para 24 hablantes obtiene una precisión del 88.34%, mientras que la diarización de hablantes no supervisada alcanza una precisión máxima del 87.22%, según se prueba en un archivo de audio con segmentos de habla de tres hablantes desconocidos. Los resultados se consideran alentadores en cuanto a la aplicabilidad de la metodología propuesta.